1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tối ưu hóa cộng cụ tìm kiếm

71 662 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tối ưu hóa công cụ tìm kiếm
Tác giả Cao Xuân Thắng
Người hướng dẫn Th.S. Vũ Văn Nam
Trường học Trường Đại Học Vinh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2010
Thành phố Vinh
Định dạng
Số trang 71
Dung lượng 4,51 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thế nhng việc tìm kiếm thông tin theo những kiểu trên vẫn không hiệuquả, chiếm nhiều thời gian vì: - Khối lợng dữ liệu khổng lồ và tính động của các trang Web, nên bộmáy tìm kiếm chỉ có

Trang 1

Trờng đại học vinh Khoa công nghệ thông tin

===    ===

Đồ áN TốT NGHIệP

TốI ƯU HóA CÔNG Cụ TìM KIếM

Giáo viên hớng dẫn : Th.S Vũ VĂN NAM

Sinh viên thực hiện : CAO XUÂN THắNG

Lớp : 46K2

Vinh - 2010

LờI CảM ƠN

Sau thời gian làm đồ án, lời đầu tiên em xin cảm ơn thầy giáo hướng

dẫn Th.s Vũ Văn Nam đã tận tình hớng dẫn, chỉ bảo và tạo mọi điều

kiện thuận lợi để em hoàn thành tốt đồ án tốt nghiệp

Trang 2

Em xin chân thành cảm ơn các thầy cô giáo trong Khoa Công NghệThông Tin Trờng ĐạI HọC VINH, và các anh, chị đang công tác tại CtyINIDEC đã giúp đỡ và cung cấp tài liệu và tất cả các kiến thức chuyênmôn cần thiết và quý giá nhất Ngoài ra chúng em còn đợc rèn luyện mộttinh thần học tập và sáng tạo Đây chính là tính cách hết sức cần thiết để

có thể thành công khi bắt tay vào công việc trong tơng lai

Cuối cùng em xin gửi lời cảm ơn tới tất cả ngời thân, bạn bè đã giúp

đỡ, động viên và đóng góp nhiều ý kiến quý báu cho em trong quá trìnhlàm báo cáo tốt nghiệp này

NộI DUNG Đồ áN 9

Chơng I GIớI THIệU Về SEARCH ENGINE Và PHƯƠNG THứC TìM KIếm

Trang 3

2.1.2 Document Index (lập chỉ mục tài liệu) 11

2.1.3 Document Cache(lu trữ tài liệu) 12

2.1.4 Document Ranking 12

2.1.5 Query Processor(bộ xử lý truy vấn) 13

2.1.6 Presentation interface(giao diện trình bày) 13

2.2 Phơng thức hoạt động 13

2.2.1 “Hybrid Search Engines” - Các hệ thống tìm kiếm tổng hợp 14

2.2.2 Các thành phần của một cỗ máy tìm kiếm tự động 14

3 Các loại Search engine phổ biến 16

3.1 Meta-search engine 16

3.2 Th mục đối tợng (Subject Directories) 17

3.3 Các cơ sở dữ liệu đặc biệt 17

4 Đặc điểm và phân loại search engine 18

4.1 Các đặc điểm 18

4.2 Cách thức xếp thứ hạng (ranking) 18

4.3 Phân loại search engine 19

4.4 Các Search Engine nên biết 20

II Các hỗ trợ nâng cao và các phép toán sử dụng trong Search engine 21

1 Dùng dấu '+' 22

2 Dùng dấu '-' 22

3 Dùng ngoặc kép " " để tìm cụm từ trong nguyên văn 23

4 Các phép toán Boolean 23

Trang 4

4.1 Phép OR 24

4.2 Phép AND 25

4.3 Phép NOT 25

4.4 Phép NEAR 25

4.5 Chẻ nhánh bằng phép ( ) 26

5 Các hỗ trợ nâng cao khác 27

5.1 Các từ khoá host:, site:, url.host:, và domain: 28

5.1.1 Từ khoá host: của Alavista(www.altavista.com) 28

5.1.2 Từ khoá tơng tự site:, url.host:, và domain: 29

5.2 Các từ khoá title:, intitle:, và allintitle: 29

5.2.1 Từ khoá title: 29

5.2.2 Từ khoá intitle: và allintitle: 30

5.2.3 Các từ khoá inurl:, allinurl:, orginurl:, và u: 31

5.2.4 inurl: và allinurl: trong google: 31

5.2.5: originurl:, u: và url: 31

5.2.6 Từ khoá Link: và linkdomain: 32

5.2.7 từ khoá filetype: 32

5.2.8 Dùng các loại kí tự phỏng định (wildcard character): … 33

5.2.9 Dùng kí tự ~ 33

Trang 5

1 Vài đặc thù của các search engines thông dụng 35

1.1 Tìm thêm dữ liệu theo liên hệ (related search): 35

1.2 Chống hội tụ (cluster) 36

1.3 Trang Tơng Tự (similar) và trang có chính tả gần giống 37

1.4 Trang có từ nối dài (stemming) 37

1.5 Dùng chức năng tồn trữ (cache) của google 38

1.6 Chuyển Dịch (translation) 39

1.7 Địa chỉ các search engine thông dụng 39

1.8 Phần mềm search engine 40

Chơng Ii KHáI NIệM Về SEO? Và CáC VấN Đề CƠ BảN Về SEO I SEO là gì? 41

1.1 Khái niệm về SEO 41

1.2 Thực trạng, tầm quan trọng website vai trò và kế hoạch phát triển của SEO trong CNTT 43

II CáC ĐịNH HƯớNG SEO 48

1 Tạo tiêu đề trang chính xác, duy nhất 49

2 Biện pháp tốt cho các thẻ tiêu đề trang 50

3 Sử dụng thẻ meta "description" 51

4 Biện pháp tốt cho các thẻ meta mô tả 53

5 Cải tiến cấu trúc URL 54

6 Làm cho trang web dễ điều hớng hơn 57

7 Sử dụng điều hớng kiểu "breadcrumb" 59

8 Cung cấp nội dung và dịch vụ chất lợng 61

9 Viết chuỗi ký tự liên kết tốt hơn 63

10 Sử dụng thẻ tiêu đề một cách thích hợp 65

11 Tối u hoá việc sử dụng hình ảnh 66

Trang 6

12 Sử dụng hiệu quả robots.txt 68

13 rel="nofollow" cho các liên kết 71

Chơng III QUảNG Bá TRANG WEB THEO CáC CáCH PHù HợP 1 Các nguyên tắc hữu ích dành cho việc quảng bá trang web của 73

2 Tận dụng các công cụ quản trị web miễn phí… 74

3 Tận dụng các dịch vụ phân tích web 76

KếT LUậN 80

TàI LIệU THAM KHảO 82

LờI Mở ĐầU

Cuộc cách mạng công nghiệp mới, nền kinh tế tri thức Nhờ sự phát triển máy vi tính và rôbốt sử dụng trong kinh doanh, chi phí sản xuất giảm, chất lợng sản phẩm cao, mức sử dụng nguyên vật liệu, lao động giảm và sản phẩm ngày càng tinh xảo, hoàn thiện hơn Máy móc đảm nhiệm những công việc nặng nhọc thay cho con ngời Công nghệ thông tin là phơng tiện và giải pháp giúp các doanh nghiệp hoạt động hiệu quả hơn

Trang 7

Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ và quýgiá Nó cung cấp cho chúng ta thông tin về mọi lĩnh vực đời sống xã hội,khoa học v.v Tuy nhiên đi đôi với sự thuận lợi ấy có một vấn đề đợc đặt ra

là chúng ta làm thế nào để truy cập và khai phá đợc nguồn tài nguyên ấy hiệuquả nhất

Từ vấn đề trên ngời ta đã nghiên cứu và tạo ra bộ máy tìm kiếmweb(Web search engine) Máy này có khả năng tìm kiếm thông tin linh hoạt,nhanh chóng và rất dễ sử dụng Ngời sử dụng chỉ cần đặt câu hỏi truy vấn vềvấn đề cần quan tâm là có đợc tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google(1), Altavista(2), HotBot(3), Lycos(4), AllTheWeb(5) là những bộmáy tìm kiếm hiệu quả và đang đợc sử dụng rộng rãi

Ngoài ra, ngời ta cũng đã tạo ra các th mục Web, chẳng hạn nhYahoo(6), Open Directory Project(7) Theo kiểu này thì các tài liệu Web đợcsắp xếp thành các th có phân cấp, ngời sử dụng có thể tìm thông tin bằngcách duyệt các cây th mục và xác định tài liệu mình cần tìm

Thế nhng việc tìm kiếm thông tin theo những kiểu trên vẫn không hiệuquả, chiếm nhiều thời gian vì:

- Khối lợng dữ liệu khổng lồ và tính động của các trang Web, nên bộmáy tìm kiếm chỉ có thể sắp xếp một phần các chỉ mục của Web

- Ngời sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện đợc hết

ý định của họ, do vậy mà tập kết quả tìm kiếm Web là chung chung

Từ ảnh hởng hai nhân tố trên tập kết quả tìm kiếm Web có thể từ hàngnghìn đến hàng triệu tài liệu, do đó tìm đợc đúng tài liệu mình cần là côngviệc vô cùng khó khăn

Nội dung đồ án nhằm chỉ ra mội loại hình CNTT mà hiệu quả của nórất lớn tuy nhiên hiện nay, nhận thức của ngời quản trị website tại Việt Namnói riêng và thế giới nói chung nhận biết việc tối u hóa website để các bộmáy tìm kiếm trỏ tới rất ít Ngời sử dụng không ý thức đợc tầm quan trọngcủa việc tối u hóa website, hoặc làm các phơng thức để các máy tìm kiếm trỏ

đến

SEO có thể coi nh là một kỹ thuật, một bí quyết thực sự đối với mỗi

ng-ời quản trị, xây dựng website hay đơn thuần là ngng-ời làm trong lĩnh vựctruyền thông

Trang 8

Sau đây là những vấn đề về lĩnh vực thơng mại điện tử dựa trên công

cụ SEO, tác dụng và nhiệm vụ, trong lĩnh vực CNTT nói chung

GIớI THIệU Về SEARCH ENGINE Và PHƯƠNG THứC TìM KIếM

I Search engine và tầm ảnh hởng

Nh chúng ta đều biết www nh là từ điển bách khoa toàn th, là th việnkhổng lồ sẵn sàng phục vụ bất cứ ai quan tâm thông qua việc truy cậpinternet Đối với chúng ta nó là một trong những nguồn tài nguyên thông tin

có giá trị nhất, nếu không có nó thì mọi hoạt động hàng ngày sẽ kém hiệuquả Nhng vấn đề đặt ra là chúng ta phải truy cập và sử dụng nguồn tàinguyên ấy nh thế nào để có hiệu quả nhất Để tìm đợc đúng thông tin cần tìmtrong nguồn tài nguyên khổng lồ là một thách thức lớn

Một trong những thành công nhất trong nghiên cứu và giải quyết vấn

đề trên là việc tạo ra đợc bộ máy tìm kiếm Web Máy này có nhiệm vụ giúpngời sử dụng tìm tài liệu mình quan tâm Các tài liệu chủ yếu có dạngHTML, PDF, PS, MS Word và MS PowerPoint

Giao diện bộ máy tìm kiếm thân thiện và rất dễ sử dụng, ngời sử dụngchỉ cần đặt câu hỏi truy vấn và ra lệnh tìm Máy sẽ trả về tập kết quả tìm

kiếm(đợc gọi là các sinppet) liên quan đến câu hỏi truy vấn đó Snippet miêu

tả ngắn gọn nội dung của tài liệu Web(trang Web), nó thờng bao gồm tựa đề,

địa chỉ web của tài liệu (đợc gọi là URL)và một đoạn text trình bày nội dung

Trang 9

1 Search Engine là gì?

Search engine(Công cụ tìm kiếm) là một công cụ phần mềm nhằm tìm

ra các trang website trên mạng dựa vào các thông tin mà nó có Dữ lợngthông tin của search engine thực chất là một loại cở sở dữ liệu cực lớn Công

cụ này tìm các tài liệu dựa trên các từ khoá(keyword) và trả về một danh

mục của các trang có chứa từ khoá liên quan

Một số công cụ tìm kiếm mạnh trên thế giới hiện nay: Google.com,Yahoo.com, Altavista.com,

2 Phơng thức hoạt động và Cơ cấu tổ chức của cổ máy tìm kiếm Search engine

-Thuật ngữ “Cỗ máy tìm kiếm - Search Engine”

đ-ợc dùng chung để chỉ 2 hệ thống tìm kiếm: Một

do các chơng trình máy tính tự động tạora(Crawler-Based Search Engines) và dạng thmục internet do con ngời quản lý(Human-Powered Directories)

Hai hệ thống tìm kiếm này tìm và lập danh mụcwebsite theo 2 cách khác nhau

Trang 10

2.1.1 Web Crawler

Web Crawler là một trong hai thành phần trực tiếp tơng tác vớiinternet, nó còn đợc gọi là web spider hoặc robot Công việc chính của WebCrawler là phát hiện những nguồn tài nguyên mới trên Web Nó giải quyếtvấn đề này bằng cách thực hiện tìm kiếm đệ quy theo các đờng link từ tất cảcác trang đã đợc duyệt

Trong khi khai phá các nguồn tài nguyên mới trên Internet, WebCrawler còn có nhiệm vụ kiểm tra xem các trang có còn hợp lệ không vàchúng ta đã đợc cập nhật hay cha Mục đích của công việc này là giúp cho

bộ máy tìm kiếm cập nhật đợc tất cả tài liệu của Web(kể cả các tài liệu cũ vàmới)

2.1.2 Document Index(lập chỉ mục tài liệu)

Mục đích chính của việc lập chỉ mục tài liệu là hỗ trợ tìm kiếm Tìmtài liệu có chứa những từ trong câu hỏi truy vấn? Để thực hiện công việc nàythì đa số các bộ máy tìm kiếm sử dụng biến dữ liệu có cấu trúc invertedindex

Inverted index giống nh danh sách chỉ mục ở phần cuối của cuốn sách,trong đó với mỗi một từ là một danh sách liên kết các tài liệu có từ đó xuấthiện Biến này có khả năng giúp bộ máy tìm kiếm xác định chính xác tài liệu

có chứa các từ trong câu hỏi truy vấn Với bảng chỉ mục nh vậy, bộ máy tìmkiếm có thể thực hiện tìm kiếm theo nhóm từ hoặc tìm kiếm từ lân cận

Trang 11

2.1.3 Document Cache(lu trữ tài liệu)

Nhiều máy phục vụ tìm kiếm vừa lu trữ bảng chỉ mục tài liệu theo từ(document index), vừa lu trữ bảng chỉ mục tài liệu gốc Mục đích của việc

lu trữ bảng chỉ mục các tài liệu gốc(tài liệu đầy đủ) là tạo ra các sippet vàphục vụ cho việc lu trữ các phiên bản của tài liệu

2.1.4 Document Ranking

Chắc chắn rằng trong môi trờng www, thậm chí đối với cả những câuhỏi truy vấn hoàn thiện và chính xác, thì tập kết quả trả tìm kiếm vẫn là hàngngàn hoặc hàng triệu tài liệu Do vậy, cần phải có công nghệ thực hiện sắpxếp tập kết quả thu về theo mức độ liên quan và mức độ quan tâm Và đâychính là công việc của Document Ranking

2.1.5 Query Processor(bộ xử lý truy vấn)

Vai trò của Query Processor là phối hợp với các bộ trên để thực hiệntrả lời câu hỏi truy vấn của ngời sử dụng Cụ thể, trong quá trình thực hiệnQuery Processor kết hợp các thành phần document index, document cache,document ranking để tạo ra tập kết quả tìm kiếm liên quan đến câu hỏi truyvấn

2.1.6 Presentation interface(giao diện trình bày)

Kết quả tìm kiếm Web đợc đa đến ngời sử dụng thông qua giao diệnnày Do vậy presentation interface đóng vai trò vô cùng quan trọng, nó ảnhhởng toàn bộ chất lợng của bộ máy tìm kiếm Bởi vì ngời sử dụng chỉ cần

Trang 12

quan tâm kết quả nhận đợc thông qua giao diện mà không quan tâm máyhoạt động xử lý tìm kiếm web nh thế nào.

2.2 Phơng thức hoạt động

Crawler-Based Search Engines - Hệ thống tìm kiếm trên nền tự độngNhững cỗ máy tìm kiếm tự động, nh Google, tạo ra những danh sách của họ

tự động Chúng sử dụng các chơng trình máy tính, đợc gọi là “robots“,

“spiders”, hay “crawlers” để lần tìm thông tin trên mạng khi có ai đó tìmkiếm một thông tin, các Search Engine lập tức hiển thị các thông tin lu trữ t-

ơng ứng Nếu ta thay đổi những trang web của mình, những cỗ máy tìm kiếm

tự động dần dần tìm thấy những sự thay đổi này, và điều đó có thể ảnh hởng

đến website đợc liệt kê nh thế nào Những tiêu đề trang, nội dung văn bản vàcác phần tử khác đều giữ một vai trò nhất định

Human-Powered Directories - Các th mục do con ngời quản lý và cậpnhật Các th mục Internet, ví dụ nh Dự án th mục mở - Open DirectoryProject(Dmoz.org) hoàn toàn phụ thuộc vào sự quản lý của con ngời Chúng

ta đăng ký website của mình vào th mục với một vài dòng mô tả ngắn gọnhoặc các biên tập viên của th mục viết giúp phần mô tả cho website, chúngphù hợp với nội dung và chủ đề của từng danh mục

Việc thay đổi những trang web của mình không có hiệu lực trên danhmục của website Những thứ hữu ích để cải thiện vị trí xếp hạng với một cỗmáy tìm kiếm không có gì để làm với việc cải thiện một vị trí trong một thmục Ngoại lệ duy nhất là một site tốt, với nội dung tốt, có lẽ thích hợp hơn

để đợc xem xét so với một website nghèo nàn

2.2.1 “Hybrid Search Engines” - Các hệ thống tìm kiếm tổng hợp

Ngày trớc, mỗi cỗ máy tìm kiếm sử dụng giải thuật riêng để tạo sựkhác biệt Đã là hệ thống tìm kiếm tự động thì không kèm theo một th mụcinternet và ngợc lại Nhng hiện nay, hầu hết hệ thống tìm kiếm đều là sự tổnghợp của hệ thống tìm kiếm tự động và một th mục do con ngời quản lý

Ví dụ: Yahoo có Yahoo Directory, Google có Google directory(dựatrên th mục Dmoz), MSN và các hệ thống tìm kiếm khác cũng vậy

2.2.2 Các thành phần của một cỗ máy tìm kiếm tự động

Những cỗ máy tìm kiếm tự động có ba phần tử chính Đầu tiên làspider, cũng đợc gọi là crawlers Spider đến thăm một trang web, đọc nó, và

Trang 13

sau đó đi theo sau những mối liên kết tới những trang khác bên trongwebsite Có nghĩa là, khi có ai đó tìm kiếm đến một trang, các spiders sẽ ghinhớ điều đó Nó sẽ quay lại trang đó và theo chu kỳ 1-2 tháng Nh vậy, nếutrang web đợc tìm thấy càng nhiều, thì các spiders càng năng quay trở lạihơn và nh thế, kết quả tìm kiếm của website cũng đợc cải thiện theo.

Mọi thứ spider tìm thấy đi vào trong phần thứ hai của cỗ máy tìmkiếm, Chỉ mục(the index) Chỉ mục, đôi khi gọi là tài liệu, là một kho lu trữkhổng lồ chứa đựng một sự sao chép của mọi trang web mà spider tìm thấy.Nếu một trang web thay đổi, thì danh sách này đợc cập nhật với thông tinmới

Cơ sở dữ liệu của các search engine đợc cập nhật hoá bởi các chơngtrình đặc biệt là "robot", "spider" hay "Webcrawler" Các chơng trình này sẽ

tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu đểkiếm ra các nối kết(links) từ các trang và trở lại bổ xung dữ liệu cho cácsearch engine sau khi phân tích Các chơng trình này cũng sẽ báo cáo về cácliên kết đã bị đào thải Từ khoá mà ngời tìm kiếm bỏ vào là để cho searchengine kiếm trong bảng chỉ số của nó Kết quả đúng nhất sẽ đợc xếp ở thứ tự

đầu tiên

Đôi khi, cần phải có thời gian để các spiders lập chỉ mục cho mộttrang mới hay một trang đợc thay đổi nội dung Nh vậy, sẽ có trờng hợp: mộttrang đã đợc các spiders tìm đến, nhng lại cha đợc lập chỉ mục Và trongkhỏang thời gian này, trang web sẽ hoàn toàn không tồn tại trên Searchengine

Phần mềm tìm kiếm chính là phần tử thứ ba của một cỗ máy tìm kiếm

Đây là một chơng trình máy tính có chức năng sàng lọc thông tin từ hàngtriệu trang tơng tự nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất

Đây chính là nơi mà các công ty SEO khai thác để đa một website nào đó lên

vị trí Top khi đợc tìm kiếm với một hay nhiều từ khóa chỉ định

Major Search Engines: Các cỗ máy tìm kiếm chính - Giống nhau nhngcũng khác nhau

Tất cả các cỗ máy tìm kiếm tự động có những phần cơ bản đợc mô tả ởtrên, nhng có những sự khác nhau trong những phần này trong việc nó đợc

điều chỉnh tác động nh thế nào Đó là lý do tại sao cùng một từ khóa, khi tìm

Trang 14

kiếm trên những cỗ máy tìm kiếm khác nhau thờng cho ra những kết quảkhác nhau

Một ví dụ cụ thể: Nếu ta đánh một từ khóa, thì Google, Yahoo, MSN,AOL, Ask hay Exactseek đều cho ra các kết quả khác nhau, dù có nhiềuwebsite hơi giống nhau

3 Các loại Search engine phổ biến

3.1 Meta-search engine

Ngày nay, ngời ta còn lợi dụng các search engine sẵn có để thiết kếthành một loại search engine mới còn gọi là meta-search engine(tạm dịch bộmáy tìm kiếm ảo) Nguyên tắc của loại search engine này rất đơn giản Nókhông có cơ sở dữ liệu Khi hoạt động thì nó sẽ gửi từ khoá đến các searchengine khác một cách đồng loạt và nhận về tất cả các kết quả tìm đợc Vànhiệm vụ của nó chỉ là phân tích hay sắp xếp lại các tài liệu tìm đợc cho ngờidùng Ưu điểm của loại meta-search engine là lợi dụng cơ sở dữ liệu của cácsearch engine nguyên thuỷ để tìm ra nhiều kết quả hơn Nhng vì loại meta-search engine này chỉ tồn tại nếu có các search engine nguyên thuỷ nên gọi

là meta(tiếp đầu ngữ meta thờng dịch là 'siêu hình' hay 'ảo') Điển hình là:

http://www.metacrawler.com/

3.2 Th mục đối tợng (Subject Directories)

Trang 15

Còn gọi là bộ máy tìm kiếm theo phân lớp(hierarchical search engine)search engine kiểu này sẽ phân lớp sẵn các đối tợng vào các th mục và ngờidùng sẽ lựa rẽ nhánh từ từ cho đến khi tìm ra các trang WEB mà mình muốn.Kiểu này dễ cho ngời tuy cập nhng có điểm yếu là nó không thể bao gồm hếtmọi chủ đề mà mình muốn kiếm ra Hơn nữa, sự phân loại đôi khi không đợc

đầy đủ và chính xác Điển hình của loại này là www.yahoo.com

3.3 Các cơ sở dữ liệu đặc biệt

Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có đợc địa chỉtrang WEB cụ thể qua các search engine, dữ liệu này tồn tại trong các cơ sởdữ liệu của một computer ở đâu đó mà các trang WEB đợc phép sử dụng

Đặc biệt, các trang WEB nghiên cứu của các ĐH hay Học Viện nh là

Ví dụ:

Ngoài ra, lợi dụng google hay yahoo ta cũng có thể tìm ra các tài liệu trong các cơ sở dữ liệu bằng cách thêm vào từ khoá chữ: "database", Nghĩa là: thay vì dùng từ khoá "ky su cntt" thì viết thành "ky su cntt database".

Các trang WEB mô tả nh trên gọi là invisible WEB (tạm dịch “WEBẩn”)

4 Đặc điểm và phân loại search engine

4.1 Các đặc điểm

Trang 16

Nh vậy, tuỳ theo keyword mà có thể tìm số trang liên hệ ít hay nhiều.Trong nhiều trờng hợp, số trang tìm ra có đến hàng triệu trang thì vấn đề đặt

ra cho một search engine là làm sao xếp thứ hạng các trang để ngời dùng cónhiều cơ hội tìm ra dữ liệu mình muốn nhất?

4.2 Cách thức xếp thứ hạng (ranking)

Hầu hết các search engine xếp hạng u tiên theo kiểu mà ngời designnghĩ rằng trang tìm thấy là phù hợp với từ khoá và các điều kiện cho thêmcủa ngời dùng máy(chẳng hạn nh máy bên Pháp thì trang tiếng Pháp sẽ có utiên hơn và tùy theo cách cho từ khoá đủ "hẹp" trong thị trờng tìm kiếm).Mặc dù vậy, khi cha quen dùng chúng ta sẽ "tìm" đợc rất nhiều liênkết(links) không vừa ý và nhiều lúc chúng hoàn toàn vô dụng Lý do chính

có thể là do ngời dùng đã không hiểu rõ kỹ thuật tìm kiếm của máy và ngợclại cũng có thể là do kỹ thuật hiện tại của search engine cha đủ sức để "hiểu"ngời dùng muốn gì!(bởi vậy mới phải tả rõ hơn cho search engine hiểu rằngmình muốn gì!)

Đa số cách xếp thứ hạng là dựa vào "số lần xuất hiện" (còn gọi là tầnxuất) của từ khoá trong một trang Nghĩa là trang có xuất hiện từ khoá nhiềunhất sẽ đợc hiển thị trớc tiên khi search engine trả lời (Ngời thiết kế searchengine cho rằng tài liệu nào lặp lại nhiều lần cái từ khoá thì chắc nó sẽ hữudụng nên đợc xếp ngay ở hàng đầu tiên của trang trả lời!)

Bởi vậy nếu ta tra tìm trang WEB mà lại dùng từ khoá chung chunghoặc từ có nhiều nghĩa thì hầu nh ta sẽ không tìm đợc những trang chứa cáimình muốn Trong trờng hợp này hoặc ta phải tìm bộ từ khoá khác hơn, chitiết hơn hoặc dùng những kỹ thuật hỗ trợ từ search engine

Có một số search engine ngoài việc xác định tần xuất của từ khoáchúng còn dựa vào khả năng xuất hiện sớm của từ khoá này trong một hồ sơ

nh là tìm thấy trong tựa đề(title), trong đầu trang(header), Hoặc giả, họ xác

định sự quan trọng của trang WEB bằng cách đếm số trang có liên kết từ cáctrang khác tới nó(Một trang WEB có hay, có quan trọng thì các searchengine u tiên cung cấp 'link' và 'reference' trên trang WEB đó!)

Trang 17

Cũng vì lí do này, đa số các search engine lớn đều có thêm chức năng

là "advanced" hay "advanced search" để giúp ta tìm ra cái cần dễ hơn

4.3 Phân loại search engine

 Phân loại theo kiến trúc hoạt động theo phân định của

Berkeley(http://www.lib.berkeley.edu/) thì có 3 loại công cụ tìmkiếm(search tool): các search engine tồn tại dựa trên chơng trìnhspider, các search engine theo th mục đối tợng, và invisible WEB

 Phân loại theo chức năng theo cách phân loại này thì tùy theo đối ợng tìm kiếm mà có:

t- Kiếm địa chỉ trang WEB, kiếm địa chỉ Email, hay kiếm tin tức vềmột ngời hay một tổ chức

(ví dụ nh website http://www.freeality.com/findrev.htm), kiếm việc làm,kiếm bản đồ (ví dụ nh http://www.google.com/mapmaker hoặc

4.4 Các Search Engine nên biết

thắng do Search Engine Watch lựa chọn) Bằng google, ta có thể dùng để tìmhình ảnh, các bàn luận đang có trên Usenet, và newsgroups(các nhóm tintức) Nó cũng cung cấp chức năng kiểm lỗi chính tả, tra cứu các từ điển, tìmgiá chứng khoán, bản đồ đi đờng, số điện thoại v.v

Google đầu tiên là một đề án từ ĐH Stanford của các sinh viên LarryPage và Sergey Brin lúc đó gọi là BackRub Năm 1988, tên này đổi thànhGoogle và dự án đã đợc tung ra thị trờng trở thành một công ty t nhân tênGoogle cho đến nay

phơng pháp th mục Cho đến tháng 11 năm 2002 yahoo đã thêm vào chứcnăng spider lấy từ Google (để tăng sức cạnh tranh) cho đến tháng 2/2004.Hiện nay yahoo đã tự có kỹ thuật tìm kiếm độc lập

Trang 18

Đây là trang "số 1" cho những ngời thích mua sắm vì cách phân loạitheo đối tợng sẽ dễ cho ngời tiêu dùng tìm đến sản phẩm cần thiết.

Kĩ thuật spider của yahoo là sự kết nối kỹ thuật của Altavista, AllTheWeb,

và của Inktomi (một đề án serach engine phát khởi từ UC Berkeley)

seaech engine có "ngôn ngữ tự nhiên" Nó cho phép ta đặt câu hỏi (tiếng Anhhoặc các thứ tiếng mà nó hỗ trợ) và trả lời cho chúng ta tất cả những gì dờng

nh có thể là đúng Thật ra, đằng sau bức màn "kỹ thuật cao" này là công ty

đã có khoảng một trăm chuyên viên có nhiệm vụ khảo sát các ghi nhận khitìm kiếm và từ đó tìm ra những gì dờng nh là những trang đúng nhất cho sựtìm kiếm đó

Ask Jeeves còn hỗ trợ thêm vào đó một chức năng gọi là "smartsearch" (tạm dịch dò kiếm tinh khôn) chức năng này cung cấp thêm một sựphân loại tối thiểu về loại đối tợng mà ta muốn tìm(hình ảnh, phim, nhạc, )bằng cách chọn các biểu tợng và do đó cho ra kết quả chính xác hơn nhiều

Ví dụ những Search engine khác nh:

II Các hỗ trợ nâng cao và các phép toán sử dụng trong Search engine

Các Phép Toán đơn giản dùng để nâng cao hiệu quả của việc tìm kiếm.

Trong hầu hết các trang tìm kiếm, việc dùng các dấu hỗ trợ +, - và ngoặc kép

đều thuận tiện

Trang 19

1 Dùng dấu '+': Khi muốn tìm các trang có mặt tất cả các chữ mà ta muốn

không theo thứ tự thì hãy viết nối các chữ này với nhau bởi dấu + (chừakhoảng trống giữa các chữ)

Thí dụ muốn tìm trang nói về thiết bị y tế ta có thể điền vào ô tìm bộ từ

khoá:

+thiet +bi +y +te

Nh vậy thì chỉ có những trang nào có đủ các chữ đã nêu mới đợc tìm ra.

Bằng cách này ta có thể lọc bớt đợc một số lớn các trang không cần tìm

2 Dùng dấu '-': Nhiều lúc chúng ta muốn loại bỏ bớt các trang có một (hay

nhiều) chữ mà không muốn có thì dùng dấu - trong trờng hợp này, chẳng

hạn tìm tin tức về các loại xe dùng kỹ thuật loại mới cha có bán trên thị trờngnhng không muốn các trang bán xe lọt vào thì có thể thử từ khoá:

car +hibrid -sale -camry -civic

(Camry and civic là hai kiểu xe hybrid(công nghệ hybrid) đã có bán trên thịtrờng của Honda)

Trang 20

3 Dùng ngoặc kép " " để tìm cụm từ trong nguyên văn

Nhiều khi ta muốn tìm bài viết nguyên văn của một câu nói, tên củamột ngời hay một bộ cụm từ thì có thể để tất cả vào trong ngoặc kép Phơngpháp này rất tiện lợi cho việc tìm kiếm những trang đặc biệt(thí dụ đánhnguyên văn một câu thơ "uống nớc nhớ nguồn" vào trong công cụ tìm kiếm

ta nhận đợc các kết quả có cụm từ trên theo thứ hạng u tiên của công cụ tìmkiếm

0.09 giây đã tìm ra câu "uống nớc nhớ nguồn".

Phơng pháp này rất hiệu quả nhng nếu đánh sai chính tả thì sẽ không cókết quả

4 Các phép toán Boolean

Các mệnh lệnh tìm kiếm dùng đại số boolean đã đợc phát triển từnhiều năm Mặc dù vậy, chúng đã khó sử dụng so với những trình độ ngờitrung bình Hầu hết các search engine đều có chấp nhận các mệnh lệnh kiểunày Tuy nhiên, hầu hết các trờng hợp thì ta có thể tìm ra những gì cần màkhông phải dùng tới chúng

Các phép toán thông dụng thờng đợc các search engine hỗ trợ là OR, AND, NOT và NEAR.

Trang 21

Lu ý: khi dùng mệnh lệnh Boolean thì các toán tử phải viết bằng chữ hoa.

"Nguyễn Trãi" OR "Nguyen Trai"

Xa hơn nữa, một số các search engines sẽ dùng phép toán OR nh là

phép toán mặc định(nghĩa là nếu ta gõ "Nguyễn Trãi" "Nguyen Trai" thì

kết quả Chẳng hạn trờng hợp search engine Altavista thì sẽ tìm ra ngay cảnhững bài viết không dấu)

Lu ý: AOL search engine không làm tốt khả năng tìm kiếm khi dùngtoán tử OR Trong khi google sẽ không hoạt động để tìm những cụm từ khácnhau bởi phép toán OR

Các trang có thể dùng OR là: AltaVista, AOL Search, Excite, Google,Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot, vàGigablast

4.2 Phép AND

Phép toán AND nhằm yêu cầu search engine tìm kiếm các trang có sựhiện diện của tất cả thành tố

Thí dụ : "cong nghe" AND "thuc pham" sẽ tìm kiếm các trang có chữ

“cong nghe” và chữ "thuc pham".

Trang 22

Một số trang tìm kiếm sẽ dùng AND nh là mặc định (trong đó cógoogle) Ta cũng có thể thay thế bằng cách dùng dấu + trong một số trờnghợp nào search engine không có chức năng Boolean.

Các trang có thể dùng AND là: AltaVista, AOL Search, Excite,Inktomi(HotBot, MSN) Northern Light, Yahoo, và Gigablast

4.3 Phép NOT

Phép này hoàn toàn tơng tự nh cách dùng dấu - Nghĩa là, sự tìm kiếm

sẽ loại bỏ những trang có thành tố đi cùng với phép toán NOT

Các trang có thể dùng NOT là: AOL Search, Excite, Inktomi (HotBot, MSN),Northern Light và Gigablast

4.4 Phép NEAR

Dùng để tìm kiếm những trang WEB có các thành tố của từ khoá nằmgần nhau Phép toán này rất có lợi để tìm ra những trang có một cụm từ, mộtkhái niệm, một định nghĩa hay một lời phát biểu mà ta không nhớ hết đợcnguyên văn

Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:

"Nớc đi" NEAR "thề non"

Trang 23

Không nhớ hết câu, vẫn tìm ra tác giả Tản Đà qua Altavista

Các trang cho dùng NEAR là AltaVista (10 words), AOL Search (specifynumber)

4.5 Chẻ nhánh bằng phép ( )

Dùng ngoặc đơn cho phép ta tìm nhiều kết hợp phức tạp Thí dụ:

bootable AND (CD OR CDROM OR CD-ROM) AND (howto or instruction).

Trang 24

 Cách tốt nhất là dùng chữ in hoa cho các phép toán.

 Các trang tìm kiếm của Hotbot hay MSN thì ta phải chuyển sangchọn chức năng "Boolean phrase" khi dùng các phép toán Boolean

 Trang Lycos(www.lycos.com) có thông báo là họ trợ giúp các phéptoán boolean nhng trong thực tế, chức năng này không hoạt động

đúng và hiệu quả

5 Các hỗ trợ nâng cao khác

Ngoài ra, nhiều search engine còn hỗ trợ thêm các từ khoá qui ớc Khidùng các từ khoá này thì search engine sẽ chuyên biệt hoá các trang WEB,tìm kiếm theo ý nghĩa qui ớc mà từ khoá biểu tợng Với các hỗ trợ này ta cóthể kiểm soát đợc các loại trang nào mà ta muốn tìm kiếm

Trang 25

Lu ý: Đằng sau các từ khoá qui ớc đều có dấu hai chấm ':' Khi viết bộ từ

khoá có các từ khóa qui ớc này thì tốt nhất là viết từ tìm kiếm ngay liền saudấu ':' và không chừa khoảng trống(space) nào

Thí dụ ta viết từ khoá link:http://cnn.com thay vì viết link: ttp://cnn.com

5.1 Các từ khoá host:, site:, url.host:, và domain:

Dùng để thu hẹp các trang WEB tìm ra

5.1.1 Từ khoá host: của Alavista(www.altavista.com ):

Từ khoá này sẽ chỉ cho phép search engine tìm các trang nằm trong

một WEB server (host) mà ta muốn tìm Thí dụ host:mars.jpl.nasa.gov

mars Saturn

Bộ từ khoá trên chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chứa chữ

mars và chữ Saturn

Kết hợp với các lệnh khác ta có thể tìm theo cách chuyên biệt:

"carbon nanotech" -host:www.technologyreview.com

Lệnh trên cho phép tìm tất cả các trang nào có chứa cụm từ "carbonnanotech" ngoại trừ các trang xuất xứ từ www.technologyreview.com(Bởi vìmuốn đọc bài từ trang này thì phải trả tiền đăng kí)

Hay là:"heart transplan" +host:edu

Mệnh lệnh trên sẽ tuy tìm các trang có đuôi gốc là.edu(vì các trang có tận

cùng edu thờng là các trang của trờng đại học)

5.1.2 Từ khoá tơng tự site:, url.host:, và domain:

Làm chức năng hoàn toàn tơng tự với từ khoá host: của Altavista thì:

 Từ khoá site: đợc dùng bởi Excite, Google(Netscape, Yahoo)

 Từ khoá url.host: dùng bởi AllTheWeb.

Trang 26

 Từ khoá domain: dùng bởi Inktomi(HotBot, iWon, LookSmart).

5.2 Các từ khoá title:, intitle:, và allintitle:

Dùng để tìm các trang có tựa đề chứa từ khoá Tuỳ theo loại searchengine mà chúng ta dùng từ khoá khác nhau

Điều này tiện lợi cho việc tìm kiếm tựa đề (hay các bài viết có chủ đềtập trung) các bài viết thông thờng các bài nghiên cứu đợc đăng tải sẽ có tựa

đề rất rõ ràng Do đó, nếu dùng cách này cũng có thể tìm ra nhiều tài liệu.Ngoài ra, dùng cách này ta có thể tìm lại đợc các trang mà ta chỉ nhớ mộthay một phần tựa đề của nó

5.2.1 Từ khoá title:

Có thể dùng trong các trang WEB: AltaVista, AllTheWeb, Inktomi(MSN và HotBot) Để truy tìm các trang có có tựa đề chứa 1 từ hay 1 cụm từ

đặc biệt(trờng hợp cụm từ thì để trong ngoặc kép)

Thí dụ: title: "Mars Landing" sẽ giúp tuy tìm các trang nói về Hoả tinh

Trong trờng hợp ta muốt tìm nhiều hơn một chữ nằm trong cùng 1 tựa đề bài

thì có thể dùng hai lần từ khoá title Thí du: title Mars title: water

5.2.2 Từ khoá intitle: và allintitle:

Cho phép dùng trong các trang: google.com và teoma.com

 Từ khoá intitle: tơng tự nh từ khoá title của altavista để tìm một từ

hay 1 cụm từ dễ trong ngoặc kép

 Ví dụ để so sánh với 'title':intitle:"mars landing"

 Từ khoá allintitle: đợc dùng để tìm tựa các bài mà có chứa nhiều

hơn 1 từ mà ta muốn tìm Ví dụ để so sánh với việc dùng nhiều lầnchữ 'title': allintitle:Mars watwer

Trang 27

Dùng allintitle: tìm trang có tựa bao gồm chữ Mars và water trong google

5.2.3 Các từ khoá inurl:, allinurl:, orginurl:, và u:

Các từ khoá này dùng để tìm những địa chỉ trang WEB mà có chứa cácchữ cần tìm (Rõ ràng là việc này có lợi cho những ai thích mò tới các địa chỉkhác nhau nhng có cùng một tên)

5.2.4 inurl: và allinurl: trong Google

 Cũng nh trên muốn tìm địa chỉ các trang WEB có một chữ đặc biệt

thì dùng inurl Thí dụ: inurl:nasa

 Nếu ta tuy tìm một địa chỉ có nhiều hơn một chữ thì dùng allinurl

Thí dụ: allinurl:vietnam thetholucbat

Lu ý: trang google chỉ có thể tìm ra nếu nh ta gõ nguyên một bộ phận của

từ(nghĩa là nếu trong ví dụ trên ta gõ thành allinurl vietnam lucbat thì ta sẽ

thất bại trong việc tìm kiếm Ngoài ra, trong google ta có thể lạm dụng từ

khoá này để tìm các trang có đuôi file riêng biệt chẳng hạn nh: mars rover

Trang 28

inurl:pdf sẽ giúp tìm các trang có dạng đuôi tệp là pdf mà các trang này

chứa từ khoá mars và chữ rover.

5.2.5: originurl:, u: và url:

 Việc tìm địa chỉ trong Inktomi (AOL, GoTo, HotBot) sẽ thông qua

từ khoá originurl:

 Trong Yahoo thì dùng từ khoá u:

 Trong exite ( www.excite.com ) dùng url:

5.2.6 Từ khoá Link: và linkdomain:

Dùng để tìm các trang có dòng liên kết tới trang mà đợc ghi trong từkhoá

 Từ khoá link dùng đợc trong google và trong yahoo Tuy nhiên,

khi dùng yahoo ta phải cho đủ tên trang WEB với tiền tố http:// Thí dụ: từ khoá link:vietsciences.free.fr sẽ tìm đợc một số trang bởi google Trong khi đó, nếu đánh link:http://vietsciences.free.fr

thì sẽ tìm ra nhiều kết quả hơn trong yahoo

 Từ khoá linkdomain: đợc dùng để tìm các liên kết nếu dùng MSN.

5.2.7 Từ khoá filetype:

Khi cần tìm các t liệu nằm dới các dạng tệp khác nhau thì từ khoá

filetype: sẽ giúp đỡ ít nhiều Tuy nhiên, tuỳ theo trang mà chúng ta truy

kiếm sẽ có các giới hạn khác nhau

 Trang google: sẽ hỗ trợ tìm kiếm các kiểu tệp: PDF, Word (.doc),Excel (.xls), PowerPoint (.ppt), và Rich Text Format (.rtf) cũng nh

là PostScript (.ps), Text (.txt), HTML (.htm hay.html), WordPerfect(.wpd), và các file extensions khác

Trang 29

 ví dụ: laser filetype:pdf sẽ giúp tìm các trang kiểu đuôi.pdf

 Trang yahoo cho phép tìm HTML (htm hay html), PDF, Excel(.xls), PowerPoint (.ppt), Word (.doc), RSS/XML (.xml), and TextFormat (.txt)

 Trang MSN chỉ chuyên biệt tìm các loại tệp: HTML, PDF,PowerPoint, Word, or Excel

Lu ý: Dới "con mắt" của các search engine thì các tệp có đuôi htm khác với các tệp có đuôi html Do đó, nếu muốn tìm một cách chắc chắc tất cả các

tệp dạng HTML thì nên tìm làm hai lần một riêng cho htm và một cho html

5.2.8 Dùng các loại kí tự phỏng định (wildcard character):

Các dấu này đợc hiểu tơng tự nh khi ta dùng lệnh có dấu phỏng địnhtrong DOS, Windows, hay Linux

 Dấu *: dùng thay cho dãy không kể độ dài các kí tự(từ zero trở

lên) hỗ trợ dấu này trong các t khoá có AltaVista, Inktomi (iWon),Northern Light, Gigablast, google, Yahoo, MSN

Thí dụ: *chnology +laser*

 Dấu ?: Dùng thay cho một kí tự bất kì Hỗ trợ kiểu tìm này có AOL

Search, Inktomi (iWon)

5.2.9 Dùng kí tự ~

Đặc biệt trong google có một cách để tìm không những các trang cóchứa từ khoá mà còn tìm các trang có chứa chữ đồng nghĩa với từ khoá

(trong tiếng Anh) Ví dụ:~food facts sẽ giúp tìm kiếm các dữ liệu có chữ

'food facts' và các chữ tơng đơng nh 'nutrition facts',

Trang 30

III Chế độ nâng cao của các search engine

Ngoài chế độ tìm kiếm thông thờng hầu hết các bộ máy tìm kiếm đều

hỗ trợ chức năng nâng cao mà dòng liên kết của nó thờng viết bởi cụm từ

"Advanced search" hay đơn giản là "Advanced"

Bấm lên dòng 'Advanced Search' cho chế độ nâng cao

Một phần hình trong chế độ nâng cao của Google

Trong chế độ này thì sự tìm kiếm đợc hớng dẫn chi tiết hơn (nhng cũng không có nghĩa là dễ tìm ra tất cả những gì mình muốn)

Đặc điểm chung của các chế độ nâng cao là:

Trang 31

 Giao diện đợc thêm vào nhiều ô trống có dòng hớng dẫn để tiện

ng-ời dùng điền vào (nh điền vào các mẫu đơn xin thi đại học) Không nhất thiết phải điền hết tất cả các ô trống nhng các ô này đ-

ợc điền một cách đúng cách và nhiều chi tiết thì càng giúp cho bộmáy tìm kiếm làm việc hiệu quả hơn

 Đa số các search engine cho phép lọc lựa (filter) lại các thông tin

nh là: lựa chọn ngôn ngữ, lựa chọn ngày tháng của trang WEB, lựachọn các kiểu tệp(file type) và ngay cả chọn lọc các nội dung chỉdành riêng cho ngời lớn

 Có thể sử dụng các phép toán đã nêu trong phần trên để nâng caophép tìm kiếm Tuy nhiên, nên cẩn thận vì có thể các kết quả sẽchịu ảnh hởng

1 Vài đặc thù của các search engines thông dụng

Mỗi search engine có thể cung cấp thêm một số phơng tiện để giảmthiểu khó khăn của của việc tìm kiếm nếu nh đã gặp(lỡ gõ) phải từ khoá cóquá nhiều trang tìm đợc, Có nhiều khi số trang tìm đợc lên đến cả triệutrang! (vậy là từ khoá này quá chung chung) Sau đây là vài công cụ hữu ích

1.1 Tìm thêm dữ liệu theo liên hệ (related search)

Sau khi search, bộ máy tìm kiếm có thể đào sâu sự tìm kiếm bằng cáchcung cấp các bộ từ khoá chi tiết hơn dới dạng các dòng link Các link nàythu nhỏ thị trờng tìm kiếm(nếu số trang tìm theo từ khóa là quá lớn) Thực

ra, nếu ta biết cách chọn từ khoá cho "xít xao" thì sẽ không phải mợn đếnchức năng này

Thí dụ nh tìm các trang viết về sao hoả mà dùng từ khoá mars thì kểnh rất khó khăn vì số lợng trang tìm ra sẽ vô cùng lớn Do đó, có thể bấm thêm vào các chữ liên hệ để serach engine thu nhỏ thị trờng tìm kiếm lại

Những trang có chức năng để tìm dữ liệu theo liên hệ là: AltaVista

(Related Searches), AllTheWeb (Narrow your search), Excite(Refine Your

Results), HotBot, Lycos, MSN, Yahoo (also try)

Trang 32

Thu hẹp bằng cách lựa bấm vào một link thích hợp

1.2 Chống hội tụ (cluster)

Trong lúc tìm kiếm nếu search engine thấy rằng các trang tìm ra cóthể ở chung một trang nguồn thì chỉ chọn ra một trang đại diện còn các trangkhác sẽ đợc xếp gọn vào và ta có thể khai triển rộng ra thành nhiều trang nếumuốn Nh vậy sự tìm kiếm sẽ dễ hơn và ít bị "nhiễu loạn" thông tin của cùngmột trang

Các hỗ trợ của google

Trang 33

Những trang có chức năng này là: AltaVista(Additional relevant pages from

this site), AllTheWeb(more hits from), Excite, Google(More results from),

HotBot, MSN, Northern Light

1.3 Trang Tơng Tự (similar) và trang có chính tả gần giống

Trong một số trờng hợp thì chức năng tìm các trang tơng tự nh cáctrang mà search engine tìm ra có thể hữu dụng Để dùng chức năng này chỉviệc bấm vào cái liên kết tơng ứng Riêng trong google thì còn có link gợi ýthêm cho việc tìm kiếm bằng chữ "Did you mean "

Các trang có chức năng tìm trang tơng tự là: AltaVista (similar pages,

related pages), AOL Search (Show me more like this), Google (did you mean, similar pages).

1.4 Trang có từ nối dài(stemming)

Đây là khả năng của một số bộ máy tìm kiếm cho phép tìm nhữngtrang có chữ mà có chứa từ khoá bên trong nó

Thí dụ, thay vì chỉ tìm chữ tutor trang sẽ tìm luôn các chữ tutors, tutorial,

AOL Search (mặc định), Direct Hit, HotBot(Enable Word Stemming).

1.5 Dùng chức năng tồn trữ (cache) của google

Có nhiều trờng hợp trang WEB đã bị xoá sổ không thể hiển thị đợcnữa nhng thông tin của nó trong cơ sở dữ liệu của search engine vẫn còn màchúng ta có thể cần dùng đến Trong thời gian các tin tức này cha bị xoá khỏisearch engine thì ta có thể đọc đợc nó nhờ vào chức năng đặc biệt này củagoogle

Trang 34

Thông tin cũ tồn đọng trong 'cache'

Ngoài ra, trong google, ta có thể dùng từ khoá qui ớc 'cache' để đọc trực tiếpcác thông tin này

Ví dụ: cache:cnn.com

1.6 Chuyển Dịch(translation)

Một số trang cho khả năng dịch lại trang tìm thấy sang thứ tiếng màngời dùng đang có (dịch đợc ra nhiều thứ tiếng nh Anh, Pháp, Đức, hay ViệtNam Nhng cũng cha đợc chuẩn xác) Nh vậy, ta có thể nắm đợc một phầnthông tin có thể dịch ra

Trang 35

C¸c trang cã chøc n¨ng chuyÓn dÞch lµ:

AltaVista(Translate),Google(Translate this page).

1.7 §Þa chØ c¸c search engine th«ng dông

1.7.1 Trang kiÓu Spider

 Meta Find www.metafind.com t×m trªn Meta Find Excite,AltaVista, Infoseek, and WebCrawler

 Meta crawlwr www.metacrawler.com t×m trªn Lycos, WebCrawler,Infoseek, Excite, Thunderstone, AltaVista, GoTo, vµ Yahoo

Ngày đăng: 19/12/2013, 11:27

HÌNH ẢNH LIÊN QUAN

Sơ đồ trang web là trang đơn giản về trang web, hiển thị cấu trúc trang web và thờng chứa danh sách phân tầng các trang trên trang web - Tối ưu hóa cộng cụ tìm kiếm
Sơ đồ trang web là trang đơn giản về trang web, hiển thị cấu trúc trang web và thờng chứa danh sách phân tầng các trang trên trang web (Trang 59)
Hình ảnh của đã không hiển thị đối với ngời dùng này vì một số lý do nhng ít nhất có phần văn bản thay thế. - Tối ưu hóa cộng cụ tìm kiếm
nh ảnh của đã không hiển thị đối với ngời dùng này vì một số lý do nhng ít nhất có phần văn bản thay thế (Trang 69)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w