Thế nhng việc tìm kiếm thông tin theo những kiểu trên vẫn không hiệuquả, chiếm nhiều thời gian vì: - Khối lợng dữ liệu khổng lồ và tính động của các trang Web, nên bộmáy tìm kiếm chỉ có
Trang 1Trờng đại học vinh Khoa công nghệ thông tin
=== ===
Đồ áN TốT NGHIệP
TốI ƯU HóA CÔNG Cụ TìM KIếM
Giáo viên hớng dẫn : Th.S Vũ VĂN NAM
Sinh viên thực hiện : CAO XUÂN THắNG
Lớp : 46K2
Vinh - 2010
LờI CảM ƠN
Sau thời gian làm đồ án, lời đầu tiên em xin cảm ơn thầy giáo hướng
dẫn Th.s Vũ Văn Nam đã tận tình hớng dẫn, chỉ bảo và tạo mọi điều
kiện thuận lợi để em hoàn thành tốt đồ án tốt nghiệp
Trang 2Em xin chân thành cảm ơn các thầy cô giáo trong Khoa Công NghệThông Tin Trờng ĐạI HọC VINH, và các anh, chị đang công tác tại CtyINIDEC đã giúp đỡ và cung cấp tài liệu và tất cả các kiến thức chuyênmôn cần thiết và quý giá nhất Ngoài ra chúng em còn đợc rèn luyện mộttinh thần học tập và sáng tạo Đây chính là tính cách hết sức cần thiết để
có thể thành công khi bắt tay vào công việc trong tơng lai
Cuối cùng em xin gửi lời cảm ơn tới tất cả ngời thân, bạn bè đã giúp
đỡ, động viên và đóng góp nhiều ý kiến quý báu cho em trong quá trìnhlàm báo cáo tốt nghiệp này
NộI DUNG Đồ áN 9
Chơng I GIớI THIệU Về SEARCH ENGINE Và PHƯƠNG THứC TìM KIếm
Trang 32.1.2 Document Index (lập chỉ mục tài liệu) 11
2.1.3 Document Cache(lu trữ tài liệu) 12
2.1.4 Document Ranking 12
2.1.5 Query Processor(bộ xử lý truy vấn) 13
2.1.6 Presentation interface(giao diện trình bày) 13
2.2 Phơng thức hoạt động 13
2.2.1 “Hybrid Search Engines” - Các hệ thống tìm kiếm tổng hợp 14
2.2.2 Các thành phần của một cỗ máy tìm kiếm tự động 14
3 Các loại Search engine phổ biến 16
3.1 Meta-search engine 16
3.2 Th mục đối tợng (Subject Directories) 17
3.3 Các cơ sở dữ liệu đặc biệt 17
4 Đặc điểm và phân loại search engine 18
4.1 Các đặc điểm 18
4.2 Cách thức xếp thứ hạng (ranking) 18
4.3 Phân loại search engine 19
4.4 Các Search Engine nên biết 20
II Các hỗ trợ nâng cao và các phép toán sử dụng trong Search engine 21
1 Dùng dấu '+' 22
2 Dùng dấu '-' 22
3 Dùng ngoặc kép " " để tìm cụm từ trong nguyên văn 23
4 Các phép toán Boolean 23
Trang 44.1 Phép OR 24
4.2 Phép AND 25
4.3 Phép NOT 25
4.4 Phép NEAR 25
4.5 Chẻ nhánh bằng phép ( ) 26
5 Các hỗ trợ nâng cao khác 27
5.1 Các từ khoá host:, site:, url.host:, và domain: 28
5.1.1 Từ khoá host: của Alavista(www.altavista.com) 28
5.1.2 Từ khoá tơng tự site:, url.host:, và domain: 29
5.2 Các từ khoá title:, intitle:, và allintitle: 29
5.2.1 Từ khoá title: 29
5.2.2 Từ khoá intitle: và allintitle: 30
5.2.3 Các từ khoá inurl:, allinurl:, orginurl:, và u: 31
5.2.4 inurl: và allinurl: trong google: 31
5.2.5: originurl:, u: và url: 31
5.2.6 Từ khoá Link: và linkdomain: 32
5.2.7 từ khoá filetype: 32
5.2.8 Dùng các loại kí tự phỏng định (wildcard character): … 33
5.2.9 Dùng kí tự ~ 33
Trang 51 Vài đặc thù của các search engines thông dụng 35
1.1 Tìm thêm dữ liệu theo liên hệ (related search): 35
1.2 Chống hội tụ (cluster) 36
1.3 Trang Tơng Tự (similar) và trang có chính tả gần giống 37
1.4 Trang có từ nối dài (stemming) 37
1.5 Dùng chức năng tồn trữ (cache) của google 38
1.6 Chuyển Dịch (translation) 39
1.7 Địa chỉ các search engine thông dụng 39
1.8 Phần mềm search engine 40
Chơng Ii KHáI NIệM Về SEO? Và CáC VấN Đề CƠ BảN Về SEO I SEO là gì? 41
1.1 Khái niệm về SEO 41
1.2 Thực trạng, tầm quan trọng website vai trò và kế hoạch phát triển của SEO trong CNTT 43
II CáC ĐịNH HƯớNG SEO 48
1 Tạo tiêu đề trang chính xác, duy nhất 49
2 Biện pháp tốt cho các thẻ tiêu đề trang 50
3 Sử dụng thẻ meta "description" 51
4 Biện pháp tốt cho các thẻ meta mô tả 53
5 Cải tiến cấu trúc URL 54
6 Làm cho trang web dễ điều hớng hơn 57
7 Sử dụng điều hớng kiểu "breadcrumb" 59
8 Cung cấp nội dung và dịch vụ chất lợng 61
9 Viết chuỗi ký tự liên kết tốt hơn 63
10 Sử dụng thẻ tiêu đề một cách thích hợp 65
11 Tối u hoá việc sử dụng hình ảnh 66
Trang 612 Sử dụng hiệu quả robots.txt 68
13 rel="nofollow" cho các liên kết 71
Chơng III QUảNG Bá TRANG WEB THEO CáC CáCH PHù HợP 1 Các nguyên tắc hữu ích dành cho việc quảng bá trang web của 73
2 Tận dụng các công cụ quản trị web miễn phí… 74
3 Tận dụng các dịch vụ phân tích web 76
KếT LUậN 80
TàI LIệU THAM KHảO 82
LờI Mở ĐầU
Cuộc cách mạng công nghiệp mới, nền kinh tế tri thức Nhờ sự phát triển máy vi tính và rôbốt sử dụng trong kinh doanh, chi phí sản xuất giảm, chất lợng sản phẩm cao, mức sử dụng nguyên vật liệu, lao động giảm và sản phẩm ngày càng tinh xảo, hoàn thiện hơn Máy móc đảm nhiệm những công việc nặng nhọc thay cho con ngời Công nghệ thông tin là phơng tiện và giải pháp giúp các doanh nghiệp hoạt động hiệu quả hơn
Trang 7Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ và quýgiá Nó cung cấp cho chúng ta thông tin về mọi lĩnh vực đời sống xã hội,khoa học v.v Tuy nhiên đi đôi với sự thuận lợi ấy có một vấn đề đợc đặt ra
là chúng ta làm thế nào để truy cập và khai phá đợc nguồn tài nguyên ấy hiệuquả nhất
Từ vấn đề trên ngời ta đã nghiên cứu và tạo ra bộ máy tìm kiếmweb(Web search engine) Máy này có khả năng tìm kiếm thông tin linh hoạt,nhanh chóng và rất dễ sử dụng Ngời sử dụng chỉ cần đặt câu hỏi truy vấn vềvấn đề cần quan tâm là có đợc tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google(1), Altavista(2), HotBot(3), Lycos(4), AllTheWeb(5) là những bộmáy tìm kiếm hiệu quả và đang đợc sử dụng rộng rãi
Ngoài ra, ngời ta cũng đã tạo ra các th mục Web, chẳng hạn nhYahoo(6), Open Directory Project(7) Theo kiểu này thì các tài liệu Web đợcsắp xếp thành các th có phân cấp, ngời sử dụng có thể tìm thông tin bằngcách duyệt các cây th mục và xác định tài liệu mình cần tìm
Thế nhng việc tìm kiếm thông tin theo những kiểu trên vẫn không hiệuquả, chiếm nhiều thời gian vì:
- Khối lợng dữ liệu khổng lồ và tính động của các trang Web, nên bộmáy tìm kiếm chỉ có thể sắp xếp một phần các chỉ mục của Web
- Ngời sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện đợc hết
ý định của họ, do vậy mà tập kết quả tìm kiếm Web là chung chung
Từ ảnh hởng hai nhân tố trên tập kết quả tìm kiếm Web có thể từ hàngnghìn đến hàng triệu tài liệu, do đó tìm đợc đúng tài liệu mình cần là côngviệc vô cùng khó khăn
Nội dung đồ án nhằm chỉ ra mội loại hình CNTT mà hiệu quả của nórất lớn tuy nhiên hiện nay, nhận thức của ngời quản trị website tại Việt Namnói riêng và thế giới nói chung nhận biết việc tối u hóa website để các bộmáy tìm kiếm trỏ tới rất ít Ngời sử dụng không ý thức đợc tầm quan trọngcủa việc tối u hóa website, hoặc làm các phơng thức để các máy tìm kiếm trỏ
đến
SEO có thể coi nh là một kỹ thuật, một bí quyết thực sự đối với mỗi
ng-ời quản trị, xây dựng website hay đơn thuần là ngng-ời làm trong lĩnh vựctruyền thông
Trang 8Sau đây là những vấn đề về lĩnh vực thơng mại điện tử dựa trên công
cụ SEO, tác dụng và nhiệm vụ, trong lĩnh vực CNTT nói chung
GIớI THIệU Về SEARCH ENGINE Và PHƯƠNG THứC TìM KIếM
I Search engine và tầm ảnh hởng
Nh chúng ta đều biết www nh là từ điển bách khoa toàn th, là th việnkhổng lồ sẵn sàng phục vụ bất cứ ai quan tâm thông qua việc truy cậpinternet Đối với chúng ta nó là một trong những nguồn tài nguyên thông tin
có giá trị nhất, nếu không có nó thì mọi hoạt động hàng ngày sẽ kém hiệuquả Nhng vấn đề đặt ra là chúng ta phải truy cập và sử dụng nguồn tàinguyên ấy nh thế nào để có hiệu quả nhất Để tìm đợc đúng thông tin cần tìmtrong nguồn tài nguyên khổng lồ là một thách thức lớn
Một trong những thành công nhất trong nghiên cứu và giải quyết vấn
đề trên là việc tạo ra đợc bộ máy tìm kiếm Web Máy này có nhiệm vụ giúpngời sử dụng tìm tài liệu mình quan tâm Các tài liệu chủ yếu có dạngHTML, PDF, PS, MS Word và MS PowerPoint
Giao diện bộ máy tìm kiếm thân thiện và rất dễ sử dụng, ngời sử dụngchỉ cần đặt câu hỏi truy vấn và ra lệnh tìm Máy sẽ trả về tập kết quả tìm
kiếm(đợc gọi là các sinppet) liên quan đến câu hỏi truy vấn đó Snippet miêu
tả ngắn gọn nội dung của tài liệu Web(trang Web), nó thờng bao gồm tựa đề,
địa chỉ web của tài liệu (đợc gọi là URL)và một đoạn text trình bày nội dung
Trang 91 Search Engine là gì?
Search engine(Công cụ tìm kiếm) là một công cụ phần mềm nhằm tìm
ra các trang website trên mạng dựa vào các thông tin mà nó có Dữ lợngthông tin của search engine thực chất là một loại cở sở dữ liệu cực lớn Công
cụ này tìm các tài liệu dựa trên các từ khoá(keyword) và trả về một danh
mục của các trang có chứa từ khoá liên quan
Một số công cụ tìm kiếm mạnh trên thế giới hiện nay: Google.com,Yahoo.com, Altavista.com,
2 Phơng thức hoạt động và Cơ cấu tổ chức của cổ máy tìm kiếm Search engine
-Thuật ngữ “Cỗ máy tìm kiếm - Search Engine”
đ-ợc dùng chung để chỉ 2 hệ thống tìm kiếm: Một
do các chơng trình máy tính tự động tạora(Crawler-Based Search Engines) và dạng thmục internet do con ngời quản lý(Human-Powered Directories)
Hai hệ thống tìm kiếm này tìm và lập danh mụcwebsite theo 2 cách khác nhau
Trang 102.1.1 Web Crawler
Web Crawler là một trong hai thành phần trực tiếp tơng tác vớiinternet, nó còn đợc gọi là web spider hoặc robot Công việc chính của WebCrawler là phát hiện những nguồn tài nguyên mới trên Web Nó giải quyếtvấn đề này bằng cách thực hiện tìm kiếm đệ quy theo các đờng link từ tất cảcác trang đã đợc duyệt
Trong khi khai phá các nguồn tài nguyên mới trên Internet, WebCrawler còn có nhiệm vụ kiểm tra xem các trang có còn hợp lệ không vàchúng ta đã đợc cập nhật hay cha Mục đích của công việc này là giúp cho
bộ máy tìm kiếm cập nhật đợc tất cả tài liệu của Web(kể cả các tài liệu cũ vàmới)
2.1.2 Document Index(lập chỉ mục tài liệu)
Mục đích chính của việc lập chỉ mục tài liệu là hỗ trợ tìm kiếm Tìmtài liệu có chứa những từ trong câu hỏi truy vấn? Để thực hiện công việc nàythì đa số các bộ máy tìm kiếm sử dụng biến dữ liệu có cấu trúc invertedindex
Inverted index giống nh danh sách chỉ mục ở phần cuối của cuốn sách,trong đó với mỗi một từ là một danh sách liên kết các tài liệu có từ đó xuấthiện Biến này có khả năng giúp bộ máy tìm kiếm xác định chính xác tài liệu
có chứa các từ trong câu hỏi truy vấn Với bảng chỉ mục nh vậy, bộ máy tìmkiếm có thể thực hiện tìm kiếm theo nhóm từ hoặc tìm kiếm từ lân cận
Trang 112.1.3 Document Cache(lu trữ tài liệu)
Nhiều máy phục vụ tìm kiếm vừa lu trữ bảng chỉ mục tài liệu theo từ(document index), vừa lu trữ bảng chỉ mục tài liệu gốc Mục đích của việc
lu trữ bảng chỉ mục các tài liệu gốc(tài liệu đầy đủ) là tạo ra các sippet vàphục vụ cho việc lu trữ các phiên bản của tài liệu
2.1.4 Document Ranking
Chắc chắn rằng trong môi trờng www, thậm chí đối với cả những câuhỏi truy vấn hoàn thiện và chính xác, thì tập kết quả trả tìm kiếm vẫn là hàngngàn hoặc hàng triệu tài liệu Do vậy, cần phải có công nghệ thực hiện sắpxếp tập kết quả thu về theo mức độ liên quan và mức độ quan tâm Và đâychính là công việc của Document Ranking
2.1.5 Query Processor(bộ xử lý truy vấn)
Vai trò của Query Processor là phối hợp với các bộ trên để thực hiệntrả lời câu hỏi truy vấn của ngời sử dụng Cụ thể, trong quá trình thực hiệnQuery Processor kết hợp các thành phần document index, document cache,document ranking để tạo ra tập kết quả tìm kiếm liên quan đến câu hỏi truyvấn
2.1.6 Presentation interface(giao diện trình bày)
Kết quả tìm kiếm Web đợc đa đến ngời sử dụng thông qua giao diệnnày Do vậy presentation interface đóng vai trò vô cùng quan trọng, nó ảnhhởng toàn bộ chất lợng của bộ máy tìm kiếm Bởi vì ngời sử dụng chỉ cần
Trang 12quan tâm kết quả nhận đợc thông qua giao diện mà không quan tâm máyhoạt động xử lý tìm kiếm web nh thế nào.
2.2 Phơng thức hoạt động
Crawler-Based Search Engines - Hệ thống tìm kiếm trên nền tự độngNhững cỗ máy tìm kiếm tự động, nh Google, tạo ra những danh sách của họ
tự động Chúng sử dụng các chơng trình máy tính, đợc gọi là “robots“,
“spiders”, hay “crawlers” để lần tìm thông tin trên mạng khi có ai đó tìmkiếm một thông tin, các Search Engine lập tức hiển thị các thông tin lu trữ t-
ơng ứng Nếu ta thay đổi những trang web của mình, những cỗ máy tìm kiếm
tự động dần dần tìm thấy những sự thay đổi này, và điều đó có thể ảnh hởng
đến website đợc liệt kê nh thế nào Những tiêu đề trang, nội dung văn bản vàcác phần tử khác đều giữ một vai trò nhất định
Human-Powered Directories - Các th mục do con ngời quản lý và cậpnhật Các th mục Internet, ví dụ nh Dự án th mục mở - Open DirectoryProject(Dmoz.org) hoàn toàn phụ thuộc vào sự quản lý của con ngời Chúng
ta đăng ký website của mình vào th mục với một vài dòng mô tả ngắn gọnhoặc các biên tập viên của th mục viết giúp phần mô tả cho website, chúngphù hợp với nội dung và chủ đề của từng danh mục
Việc thay đổi những trang web của mình không có hiệu lực trên danhmục của website Những thứ hữu ích để cải thiện vị trí xếp hạng với một cỗmáy tìm kiếm không có gì để làm với việc cải thiện một vị trí trong một thmục Ngoại lệ duy nhất là một site tốt, với nội dung tốt, có lẽ thích hợp hơn
để đợc xem xét so với một website nghèo nàn
2.2.1 “Hybrid Search Engines” - Các hệ thống tìm kiếm tổng hợp
Ngày trớc, mỗi cỗ máy tìm kiếm sử dụng giải thuật riêng để tạo sựkhác biệt Đã là hệ thống tìm kiếm tự động thì không kèm theo một th mụcinternet và ngợc lại Nhng hiện nay, hầu hết hệ thống tìm kiếm đều là sự tổnghợp của hệ thống tìm kiếm tự động và một th mục do con ngời quản lý
Ví dụ: Yahoo có Yahoo Directory, Google có Google directory(dựatrên th mục Dmoz), MSN và các hệ thống tìm kiếm khác cũng vậy
2.2.2 Các thành phần của một cỗ máy tìm kiếm tự động
Những cỗ máy tìm kiếm tự động có ba phần tử chính Đầu tiên làspider, cũng đợc gọi là crawlers Spider đến thăm một trang web, đọc nó, và
Trang 13sau đó đi theo sau những mối liên kết tới những trang khác bên trongwebsite Có nghĩa là, khi có ai đó tìm kiếm đến một trang, các spiders sẽ ghinhớ điều đó Nó sẽ quay lại trang đó và theo chu kỳ 1-2 tháng Nh vậy, nếutrang web đợc tìm thấy càng nhiều, thì các spiders càng năng quay trở lạihơn và nh thế, kết quả tìm kiếm của website cũng đợc cải thiện theo.
Mọi thứ spider tìm thấy đi vào trong phần thứ hai của cỗ máy tìmkiếm, Chỉ mục(the index) Chỉ mục, đôi khi gọi là tài liệu, là một kho lu trữkhổng lồ chứa đựng một sự sao chép của mọi trang web mà spider tìm thấy.Nếu một trang web thay đổi, thì danh sách này đợc cập nhật với thông tinmới
Cơ sở dữ liệu của các search engine đợc cập nhật hoá bởi các chơngtrình đặc biệt là "robot", "spider" hay "Webcrawler" Các chơng trình này sẽ
tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu đểkiếm ra các nối kết(links) từ các trang và trở lại bổ xung dữ liệu cho cácsearch engine sau khi phân tích Các chơng trình này cũng sẽ báo cáo về cácliên kết đã bị đào thải Từ khoá mà ngời tìm kiếm bỏ vào là để cho searchengine kiếm trong bảng chỉ số của nó Kết quả đúng nhất sẽ đợc xếp ở thứ tự
đầu tiên
Đôi khi, cần phải có thời gian để các spiders lập chỉ mục cho mộttrang mới hay một trang đợc thay đổi nội dung Nh vậy, sẽ có trờng hợp: mộttrang đã đợc các spiders tìm đến, nhng lại cha đợc lập chỉ mục Và trongkhỏang thời gian này, trang web sẽ hoàn toàn không tồn tại trên Searchengine
Phần mềm tìm kiếm chính là phần tử thứ ba của một cỗ máy tìm kiếm
Đây là một chơng trình máy tính có chức năng sàng lọc thông tin từ hàngtriệu trang tơng tự nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất
Đây chính là nơi mà các công ty SEO khai thác để đa một website nào đó lên
vị trí Top khi đợc tìm kiếm với một hay nhiều từ khóa chỉ định
Major Search Engines: Các cỗ máy tìm kiếm chính - Giống nhau nhngcũng khác nhau
Tất cả các cỗ máy tìm kiếm tự động có những phần cơ bản đợc mô tả ởtrên, nhng có những sự khác nhau trong những phần này trong việc nó đợc
điều chỉnh tác động nh thế nào Đó là lý do tại sao cùng một từ khóa, khi tìm
Trang 14kiếm trên những cỗ máy tìm kiếm khác nhau thờng cho ra những kết quảkhác nhau
Một ví dụ cụ thể: Nếu ta đánh một từ khóa, thì Google, Yahoo, MSN,AOL, Ask hay Exactseek đều cho ra các kết quả khác nhau, dù có nhiềuwebsite hơi giống nhau
3 Các loại Search engine phổ biến
3.1 Meta-search engine
Ngày nay, ngời ta còn lợi dụng các search engine sẵn có để thiết kếthành một loại search engine mới còn gọi là meta-search engine(tạm dịch bộmáy tìm kiếm ảo) Nguyên tắc của loại search engine này rất đơn giản Nókhông có cơ sở dữ liệu Khi hoạt động thì nó sẽ gửi từ khoá đến các searchengine khác một cách đồng loạt và nhận về tất cả các kết quả tìm đợc Vànhiệm vụ của nó chỉ là phân tích hay sắp xếp lại các tài liệu tìm đợc cho ngờidùng Ưu điểm của loại meta-search engine là lợi dụng cơ sở dữ liệu của cácsearch engine nguyên thuỷ để tìm ra nhiều kết quả hơn Nhng vì loại meta-search engine này chỉ tồn tại nếu có các search engine nguyên thuỷ nên gọi
là meta(tiếp đầu ngữ meta thờng dịch là 'siêu hình' hay 'ảo') Điển hình là:
http://www.metacrawler.com/
3.2 Th mục đối tợng (Subject Directories)
Trang 15Còn gọi là bộ máy tìm kiếm theo phân lớp(hierarchical search engine)search engine kiểu này sẽ phân lớp sẵn các đối tợng vào các th mục và ngờidùng sẽ lựa rẽ nhánh từ từ cho đến khi tìm ra các trang WEB mà mình muốn.Kiểu này dễ cho ngời tuy cập nhng có điểm yếu là nó không thể bao gồm hếtmọi chủ đề mà mình muốn kiếm ra Hơn nữa, sự phân loại đôi khi không đợc
đầy đủ và chính xác Điển hình của loại này là www.yahoo.com
3.3 Các cơ sở dữ liệu đặc biệt
Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có đợc địa chỉtrang WEB cụ thể qua các search engine, dữ liệu này tồn tại trong các cơ sởdữ liệu của một computer ở đâu đó mà các trang WEB đợc phép sử dụng
Đặc biệt, các trang WEB nghiên cứu của các ĐH hay Học Viện nh là
Ví dụ:
Ngoài ra, lợi dụng google hay yahoo ta cũng có thể tìm ra các tài liệu trong các cơ sở dữ liệu bằng cách thêm vào từ khoá chữ: "database", Nghĩa là: thay vì dùng từ khoá "ky su cntt" thì viết thành "ky su cntt database".
Các trang WEB mô tả nh trên gọi là invisible WEB (tạm dịch “WEBẩn”)
4 Đặc điểm và phân loại search engine
4.1 Các đặc điểm
Trang 16Nh vậy, tuỳ theo keyword mà có thể tìm số trang liên hệ ít hay nhiều.Trong nhiều trờng hợp, số trang tìm ra có đến hàng triệu trang thì vấn đề đặt
ra cho một search engine là làm sao xếp thứ hạng các trang để ngời dùng cónhiều cơ hội tìm ra dữ liệu mình muốn nhất?
4.2 Cách thức xếp thứ hạng (ranking)
Hầu hết các search engine xếp hạng u tiên theo kiểu mà ngời designnghĩ rằng trang tìm thấy là phù hợp với từ khoá và các điều kiện cho thêmcủa ngời dùng máy(chẳng hạn nh máy bên Pháp thì trang tiếng Pháp sẽ có utiên hơn và tùy theo cách cho từ khoá đủ "hẹp" trong thị trờng tìm kiếm).Mặc dù vậy, khi cha quen dùng chúng ta sẽ "tìm" đợc rất nhiều liênkết(links) không vừa ý và nhiều lúc chúng hoàn toàn vô dụng Lý do chính
có thể là do ngời dùng đã không hiểu rõ kỹ thuật tìm kiếm của máy và ngợclại cũng có thể là do kỹ thuật hiện tại của search engine cha đủ sức để "hiểu"ngời dùng muốn gì!(bởi vậy mới phải tả rõ hơn cho search engine hiểu rằngmình muốn gì!)
Đa số cách xếp thứ hạng là dựa vào "số lần xuất hiện" (còn gọi là tầnxuất) của từ khoá trong một trang Nghĩa là trang có xuất hiện từ khoá nhiềunhất sẽ đợc hiển thị trớc tiên khi search engine trả lời (Ngời thiết kế searchengine cho rằng tài liệu nào lặp lại nhiều lần cái từ khoá thì chắc nó sẽ hữudụng nên đợc xếp ngay ở hàng đầu tiên của trang trả lời!)
Bởi vậy nếu ta tra tìm trang WEB mà lại dùng từ khoá chung chunghoặc từ có nhiều nghĩa thì hầu nh ta sẽ không tìm đợc những trang chứa cáimình muốn Trong trờng hợp này hoặc ta phải tìm bộ từ khoá khác hơn, chitiết hơn hoặc dùng những kỹ thuật hỗ trợ từ search engine
Có một số search engine ngoài việc xác định tần xuất của từ khoáchúng còn dựa vào khả năng xuất hiện sớm của từ khoá này trong một hồ sơ
nh là tìm thấy trong tựa đề(title), trong đầu trang(header), Hoặc giả, họ xác
định sự quan trọng của trang WEB bằng cách đếm số trang có liên kết từ cáctrang khác tới nó(Một trang WEB có hay, có quan trọng thì các searchengine u tiên cung cấp 'link' và 'reference' trên trang WEB đó!)
Trang 17Cũng vì lí do này, đa số các search engine lớn đều có thêm chức năng
là "advanced" hay "advanced search" để giúp ta tìm ra cái cần dễ hơn
4.3 Phân loại search engine
Phân loại theo kiến trúc hoạt động theo phân định của
Berkeley(http://www.lib.berkeley.edu/) thì có 3 loại công cụ tìmkiếm(search tool): các search engine tồn tại dựa trên chơng trìnhspider, các search engine theo th mục đối tợng, và invisible WEB
Phân loại theo chức năng theo cách phân loại này thì tùy theo đối ợng tìm kiếm mà có:
t- Kiếm địa chỉ trang WEB, kiếm địa chỉ Email, hay kiếm tin tức vềmột ngời hay một tổ chức
(ví dụ nh website http://www.freeality.com/findrev.htm), kiếm việc làm,kiếm bản đồ (ví dụ nh http://www.google.com/mapmaker hoặc
4.4 Các Search Engine nên biết
thắng do Search Engine Watch lựa chọn) Bằng google, ta có thể dùng để tìmhình ảnh, các bàn luận đang có trên Usenet, và newsgroups(các nhóm tintức) Nó cũng cung cấp chức năng kiểm lỗi chính tả, tra cứu các từ điển, tìmgiá chứng khoán, bản đồ đi đờng, số điện thoại v.v
Google đầu tiên là một đề án từ ĐH Stanford của các sinh viên LarryPage và Sergey Brin lúc đó gọi là BackRub Năm 1988, tên này đổi thànhGoogle và dự án đã đợc tung ra thị trờng trở thành một công ty t nhân tênGoogle cho đến nay
phơng pháp th mục Cho đến tháng 11 năm 2002 yahoo đã thêm vào chứcnăng spider lấy từ Google (để tăng sức cạnh tranh) cho đến tháng 2/2004.Hiện nay yahoo đã tự có kỹ thuật tìm kiếm độc lập
Trang 18Đây là trang "số 1" cho những ngời thích mua sắm vì cách phân loạitheo đối tợng sẽ dễ cho ngời tiêu dùng tìm đến sản phẩm cần thiết.
Kĩ thuật spider của yahoo là sự kết nối kỹ thuật của Altavista, AllTheWeb,
và của Inktomi (một đề án serach engine phát khởi từ UC Berkeley)
seaech engine có "ngôn ngữ tự nhiên" Nó cho phép ta đặt câu hỏi (tiếng Anhhoặc các thứ tiếng mà nó hỗ trợ) và trả lời cho chúng ta tất cả những gì dờng
nh có thể là đúng Thật ra, đằng sau bức màn "kỹ thuật cao" này là công ty
đã có khoảng một trăm chuyên viên có nhiệm vụ khảo sát các ghi nhận khitìm kiếm và từ đó tìm ra những gì dờng nh là những trang đúng nhất cho sựtìm kiếm đó
Ask Jeeves còn hỗ trợ thêm vào đó một chức năng gọi là "smartsearch" (tạm dịch dò kiếm tinh khôn) chức năng này cung cấp thêm một sựphân loại tối thiểu về loại đối tợng mà ta muốn tìm(hình ảnh, phim, nhạc, )bằng cách chọn các biểu tợng và do đó cho ra kết quả chính xác hơn nhiều
Ví dụ những Search engine khác nh:
II Các hỗ trợ nâng cao và các phép toán sử dụng trong Search engine
Các Phép Toán đơn giản dùng để nâng cao hiệu quả của việc tìm kiếm.
Trong hầu hết các trang tìm kiếm, việc dùng các dấu hỗ trợ +, - và ngoặc kép
đều thuận tiện
Trang 191 Dùng dấu '+': Khi muốn tìm các trang có mặt tất cả các chữ mà ta muốn
không theo thứ tự thì hãy viết nối các chữ này với nhau bởi dấu + (chừakhoảng trống giữa các chữ)
Thí dụ muốn tìm trang nói về thiết bị y tế ta có thể điền vào ô tìm bộ từ
khoá:
+thiet +bi +y +te
Nh vậy thì chỉ có những trang nào có đủ các chữ đã nêu mới đợc tìm ra.
Bằng cách này ta có thể lọc bớt đợc một số lớn các trang không cần tìm
2 Dùng dấu '-': Nhiều lúc chúng ta muốn loại bỏ bớt các trang có một (hay
nhiều) chữ mà không muốn có thì dùng dấu - trong trờng hợp này, chẳng
hạn tìm tin tức về các loại xe dùng kỹ thuật loại mới cha có bán trên thị trờngnhng không muốn các trang bán xe lọt vào thì có thể thử từ khoá:
car +hibrid -sale -camry -civic
(Camry and civic là hai kiểu xe hybrid(công nghệ hybrid) đã có bán trên thịtrờng của Honda)
Trang 203 Dùng ngoặc kép " " để tìm cụm từ trong nguyên văn
Nhiều khi ta muốn tìm bài viết nguyên văn của một câu nói, tên củamột ngời hay một bộ cụm từ thì có thể để tất cả vào trong ngoặc kép Phơngpháp này rất tiện lợi cho việc tìm kiếm những trang đặc biệt(thí dụ đánhnguyên văn một câu thơ "uống nớc nhớ nguồn" vào trong công cụ tìm kiếm
ta nhận đợc các kết quả có cụm từ trên theo thứ hạng u tiên của công cụ tìmkiếm
0.09 giây đã tìm ra câu "uống nớc nhớ nguồn".
Phơng pháp này rất hiệu quả nhng nếu đánh sai chính tả thì sẽ không cókết quả
4 Các phép toán Boolean
Các mệnh lệnh tìm kiếm dùng đại số boolean đã đợc phát triển từnhiều năm Mặc dù vậy, chúng đã khó sử dụng so với những trình độ ngờitrung bình Hầu hết các search engine đều có chấp nhận các mệnh lệnh kiểunày Tuy nhiên, hầu hết các trờng hợp thì ta có thể tìm ra những gì cần màkhông phải dùng tới chúng
Các phép toán thông dụng thờng đợc các search engine hỗ trợ là OR, AND, NOT và NEAR.
Trang 21Lu ý: khi dùng mệnh lệnh Boolean thì các toán tử phải viết bằng chữ hoa.
"Nguyễn Trãi" OR "Nguyen Trai"
Xa hơn nữa, một số các search engines sẽ dùng phép toán OR nh là
phép toán mặc định(nghĩa là nếu ta gõ "Nguyễn Trãi" "Nguyen Trai" thì
kết quả Chẳng hạn trờng hợp search engine Altavista thì sẽ tìm ra ngay cảnhững bài viết không dấu)
Lu ý: AOL search engine không làm tốt khả năng tìm kiếm khi dùngtoán tử OR Trong khi google sẽ không hoạt động để tìm những cụm từ khácnhau bởi phép toán OR
Các trang có thể dùng OR là: AltaVista, AOL Search, Excite, Google,Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot, vàGigablast
4.2 Phép AND
Phép toán AND nhằm yêu cầu search engine tìm kiếm các trang có sựhiện diện của tất cả thành tố
Thí dụ : "cong nghe" AND "thuc pham" sẽ tìm kiếm các trang có chữ
“cong nghe” và chữ "thuc pham".
Trang 22Một số trang tìm kiếm sẽ dùng AND nh là mặc định (trong đó cógoogle) Ta cũng có thể thay thế bằng cách dùng dấu + trong một số trờnghợp nào search engine không có chức năng Boolean.
Các trang có thể dùng AND là: AltaVista, AOL Search, Excite,Inktomi(HotBot, MSN) Northern Light, Yahoo, và Gigablast
4.3 Phép NOT
Phép này hoàn toàn tơng tự nh cách dùng dấu - Nghĩa là, sự tìm kiếm
sẽ loại bỏ những trang có thành tố đi cùng với phép toán NOT
Các trang có thể dùng NOT là: AOL Search, Excite, Inktomi (HotBot, MSN),Northern Light và Gigablast
4.4 Phép NEAR
Dùng để tìm kiếm những trang WEB có các thành tố của từ khoá nằmgần nhau Phép toán này rất có lợi để tìm ra những trang có một cụm từ, mộtkhái niệm, một định nghĩa hay một lời phát biểu mà ta không nhớ hết đợcnguyên văn
Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:
"Nớc đi" NEAR "thề non"
Trang 23Không nhớ hết câu, vẫn tìm ra tác giả Tản Đà qua Altavista
Các trang cho dùng NEAR là AltaVista (10 words), AOL Search (specifynumber)
4.5 Chẻ nhánh bằng phép ( )
Dùng ngoặc đơn cho phép ta tìm nhiều kết hợp phức tạp Thí dụ:
bootable AND (CD OR CDROM OR CD-ROM) AND (howto or instruction).
Trang 24 Cách tốt nhất là dùng chữ in hoa cho các phép toán.
Các trang tìm kiếm của Hotbot hay MSN thì ta phải chuyển sangchọn chức năng "Boolean phrase" khi dùng các phép toán Boolean
Trang Lycos(www.lycos.com) có thông báo là họ trợ giúp các phéptoán boolean nhng trong thực tế, chức năng này không hoạt động
đúng và hiệu quả
5 Các hỗ trợ nâng cao khác
Ngoài ra, nhiều search engine còn hỗ trợ thêm các từ khoá qui ớc Khidùng các từ khoá này thì search engine sẽ chuyên biệt hoá các trang WEB,tìm kiếm theo ý nghĩa qui ớc mà từ khoá biểu tợng Với các hỗ trợ này ta cóthể kiểm soát đợc các loại trang nào mà ta muốn tìm kiếm
Trang 25Lu ý: Đằng sau các từ khoá qui ớc đều có dấu hai chấm ':' Khi viết bộ từ
khoá có các từ khóa qui ớc này thì tốt nhất là viết từ tìm kiếm ngay liền saudấu ':' và không chừa khoảng trống(space) nào
Thí dụ ta viết từ khoá link:http://cnn.com thay vì viết link: ttp://cnn.com
5.1 Các từ khoá host:, site:, url.host:, và domain:
Dùng để thu hẹp các trang WEB tìm ra
5.1.1 Từ khoá host: của Alavista(www.altavista.com ):
Từ khoá này sẽ chỉ cho phép search engine tìm các trang nằm trong
một WEB server (host) mà ta muốn tìm Thí dụ host:mars.jpl.nasa.gov
mars Saturn
Bộ từ khoá trên chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chứa chữ
mars và chữ Saturn
Kết hợp với các lệnh khác ta có thể tìm theo cách chuyên biệt:
"carbon nanotech" -host:www.technologyreview.com
Lệnh trên cho phép tìm tất cả các trang nào có chứa cụm từ "carbonnanotech" ngoại trừ các trang xuất xứ từ www.technologyreview.com(Bởi vìmuốn đọc bài từ trang này thì phải trả tiền đăng kí)
Hay là:"heart transplan" +host:edu
Mệnh lệnh trên sẽ tuy tìm các trang có đuôi gốc là.edu(vì các trang có tận
cùng edu thờng là các trang của trờng đại học)
5.1.2 Từ khoá tơng tự site:, url.host:, và domain:
Làm chức năng hoàn toàn tơng tự với từ khoá host: của Altavista thì:
Từ khoá site: đợc dùng bởi Excite, Google(Netscape, Yahoo)
Từ khoá url.host: dùng bởi AllTheWeb.
Trang 26 Từ khoá domain: dùng bởi Inktomi(HotBot, iWon, LookSmart).
5.2 Các từ khoá title:, intitle:, và allintitle:
Dùng để tìm các trang có tựa đề chứa từ khoá Tuỳ theo loại searchengine mà chúng ta dùng từ khoá khác nhau
Điều này tiện lợi cho việc tìm kiếm tựa đề (hay các bài viết có chủ đềtập trung) các bài viết thông thờng các bài nghiên cứu đợc đăng tải sẽ có tựa
đề rất rõ ràng Do đó, nếu dùng cách này cũng có thể tìm ra nhiều tài liệu.Ngoài ra, dùng cách này ta có thể tìm lại đợc các trang mà ta chỉ nhớ mộthay một phần tựa đề của nó
5.2.1 Từ khoá title:
Có thể dùng trong các trang WEB: AltaVista, AllTheWeb, Inktomi(MSN và HotBot) Để truy tìm các trang có có tựa đề chứa 1 từ hay 1 cụm từ
đặc biệt(trờng hợp cụm từ thì để trong ngoặc kép)
Thí dụ: title: "Mars Landing" sẽ giúp tuy tìm các trang nói về Hoả tinh
Trong trờng hợp ta muốt tìm nhiều hơn một chữ nằm trong cùng 1 tựa đề bài
thì có thể dùng hai lần từ khoá title Thí du: title Mars title: water
5.2.2 Từ khoá intitle: và allintitle:
Cho phép dùng trong các trang: google.com và teoma.com
Từ khoá intitle: tơng tự nh từ khoá title của altavista để tìm một từ
hay 1 cụm từ dễ trong ngoặc kép
Ví dụ để so sánh với 'title':intitle:"mars landing"
Từ khoá allintitle: đợc dùng để tìm tựa các bài mà có chứa nhiều
hơn 1 từ mà ta muốn tìm Ví dụ để so sánh với việc dùng nhiều lầnchữ 'title': allintitle:Mars watwer
Trang 27Dùng allintitle: tìm trang có tựa bao gồm chữ Mars và water trong google
5.2.3 Các từ khoá inurl:, allinurl:, orginurl:, và u:
Các từ khoá này dùng để tìm những địa chỉ trang WEB mà có chứa cácchữ cần tìm (Rõ ràng là việc này có lợi cho những ai thích mò tới các địa chỉkhác nhau nhng có cùng một tên)
5.2.4 inurl: và allinurl: trong Google
Cũng nh trên muốn tìm địa chỉ các trang WEB có một chữ đặc biệt
thì dùng inurl Thí dụ: inurl:nasa
Nếu ta tuy tìm một địa chỉ có nhiều hơn một chữ thì dùng allinurl
Thí dụ: allinurl:vietnam thetholucbat
Lu ý: trang google chỉ có thể tìm ra nếu nh ta gõ nguyên một bộ phận của
từ(nghĩa là nếu trong ví dụ trên ta gõ thành allinurl vietnam lucbat thì ta sẽ
thất bại trong việc tìm kiếm Ngoài ra, trong google ta có thể lạm dụng từ
khoá này để tìm các trang có đuôi file riêng biệt chẳng hạn nh: mars rover
Trang 28inurl:pdf sẽ giúp tìm các trang có dạng đuôi tệp là pdf mà các trang này
chứa từ khoá mars và chữ rover.
5.2.5: originurl:, u: và url:
Việc tìm địa chỉ trong Inktomi (AOL, GoTo, HotBot) sẽ thông qua
từ khoá originurl:
Trong Yahoo thì dùng từ khoá u:
Trong exite ( www.excite.com ) dùng url:
5.2.6 Từ khoá Link: và linkdomain:
Dùng để tìm các trang có dòng liên kết tới trang mà đợc ghi trong từkhoá
Từ khoá link dùng đợc trong google và trong yahoo Tuy nhiên,
khi dùng yahoo ta phải cho đủ tên trang WEB với tiền tố http:// Thí dụ: từ khoá link:vietsciences.free.fr sẽ tìm đợc một số trang bởi google Trong khi đó, nếu đánh link:http://vietsciences.free.fr
thì sẽ tìm ra nhiều kết quả hơn trong yahoo
Từ khoá linkdomain: đợc dùng để tìm các liên kết nếu dùng MSN.
5.2.7 Từ khoá filetype:
Khi cần tìm các t liệu nằm dới các dạng tệp khác nhau thì từ khoá
filetype: sẽ giúp đỡ ít nhiều Tuy nhiên, tuỳ theo trang mà chúng ta truy
kiếm sẽ có các giới hạn khác nhau
Trang google: sẽ hỗ trợ tìm kiếm các kiểu tệp: PDF, Word (.doc),Excel (.xls), PowerPoint (.ppt), và Rich Text Format (.rtf) cũng nh
là PostScript (.ps), Text (.txt), HTML (.htm hay.html), WordPerfect(.wpd), và các file extensions khác
Trang 29 ví dụ: laser filetype:pdf sẽ giúp tìm các trang kiểu đuôi.pdf
Trang yahoo cho phép tìm HTML (htm hay html), PDF, Excel(.xls), PowerPoint (.ppt), Word (.doc), RSS/XML (.xml), and TextFormat (.txt)
Trang MSN chỉ chuyên biệt tìm các loại tệp: HTML, PDF,PowerPoint, Word, or Excel
Lu ý: Dới "con mắt" của các search engine thì các tệp có đuôi htm khác với các tệp có đuôi html Do đó, nếu muốn tìm một cách chắc chắc tất cả các
tệp dạng HTML thì nên tìm làm hai lần một riêng cho htm và một cho html
5.2.8 Dùng các loại kí tự phỏng định (wildcard character):
Các dấu này đợc hiểu tơng tự nh khi ta dùng lệnh có dấu phỏng địnhtrong DOS, Windows, hay Linux
Dấu *: dùng thay cho dãy không kể độ dài các kí tự(từ zero trở
lên) hỗ trợ dấu này trong các t khoá có AltaVista, Inktomi (iWon),Northern Light, Gigablast, google, Yahoo, MSN
Thí dụ: *chnology +laser*
Dấu ?: Dùng thay cho một kí tự bất kì Hỗ trợ kiểu tìm này có AOL
Search, Inktomi (iWon)
5.2.9 Dùng kí tự ~
Đặc biệt trong google có một cách để tìm không những các trang cóchứa từ khoá mà còn tìm các trang có chứa chữ đồng nghĩa với từ khoá
(trong tiếng Anh) Ví dụ:~food facts sẽ giúp tìm kiếm các dữ liệu có chữ
'food facts' và các chữ tơng đơng nh 'nutrition facts',
Trang 30III Chế độ nâng cao của các search engine
Ngoài chế độ tìm kiếm thông thờng hầu hết các bộ máy tìm kiếm đều
hỗ trợ chức năng nâng cao mà dòng liên kết của nó thờng viết bởi cụm từ
"Advanced search" hay đơn giản là "Advanced"
Bấm lên dòng 'Advanced Search' cho chế độ nâng cao
Một phần hình trong chế độ nâng cao của Google
Trong chế độ này thì sự tìm kiếm đợc hớng dẫn chi tiết hơn (nhng cũng không có nghĩa là dễ tìm ra tất cả những gì mình muốn)
Đặc điểm chung của các chế độ nâng cao là:
Trang 31 Giao diện đợc thêm vào nhiều ô trống có dòng hớng dẫn để tiện
ng-ời dùng điền vào (nh điền vào các mẫu đơn xin thi đại học) Không nhất thiết phải điền hết tất cả các ô trống nhng các ô này đ-
ợc điền một cách đúng cách và nhiều chi tiết thì càng giúp cho bộmáy tìm kiếm làm việc hiệu quả hơn
Đa số các search engine cho phép lọc lựa (filter) lại các thông tin
nh là: lựa chọn ngôn ngữ, lựa chọn ngày tháng của trang WEB, lựachọn các kiểu tệp(file type) và ngay cả chọn lọc các nội dung chỉdành riêng cho ngời lớn
Có thể sử dụng các phép toán đã nêu trong phần trên để nâng caophép tìm kiếm Tuy nhiên, nên cẩn thận vì có thể các kết quả sẽchịu ảnh hởng
1 Vài đặc thù của các search engines thông dụng
Mỗi search engine có thể cung cấp thêm một số phơng tiện để giảmthiểu khó khăn của của việc tìm kiếm nếu nh đã gặp(lỡ gõ) phải từ khoá cóquá nhiều trang tìm đợc, Có nhiều khi số trang tìm đợc lên đến cả triệutrang! (vậy là từ khoá này quá chung chung) Sau đây là vài công cụ hữu ích
1.1 Tìm thêm dữ liệu theo liên hệ (related search)
Sau khi search, bộ máy tìm kiếm có thể đào sâu sự tìm kiếm bằng cáchcung cấp các bộ từ khoá chi tiết hơn dới dạng các dòng link Các link nàythu nhỏ thị trờng tìm kiếm(nếu số trang tìm theo từ khóa là quá lớn) Thực
ra, nếu ta biết cách chọn từ khoá cho "xít xao" thì sẽ không phải mợn đếnchức năng này
Thí dụ nh tìm các trang viết về sao hoả mà dùng từ khoá mars thì kểnh rất khó khăn vì số lợng trang tìm ra sẽ vô cùng lớn Do đó, có thể bấm thêm vào các chữ liên hệ để serach engine thu nhỏ thị trờng tìm kiếm lại
Những trang có chức năng để tìm dữ liệu theo liên hệ là: AltaVista
(Related Searches), AllTheWeb (Narrow your search), Excite(Refine Your
Results), HotBot, Lycos, MSN, Yahoo (also try)
Trang 32Thu hẹp bằng cách lựa bấm vào một link thích hợp
1.2 Chống hội tụ (cluster)
Trong lúc tìm kiếm nếu search engine thấy rằng các trang tìm ra cóthể ở chung một trang nguồn thì chỉ chọn ra một trang đại diện còn các trangkhác sẽ đợc xếp gọn vào và ta có thể khai triển rộng ra thành nhiều trang nếumuốn Nh vậy sự tìm kiếm sẽ dễ hơn và ít bị "nhiễu loạn" thông tin của cùngmột trang
Các hỗ trợ của google
Trang 33Những trang có chức năng này là: AltaVista(Additional relevant pages from
this site), AllTheWeb(more hits from), Excite, Google(More results from),
HotBot, MSN, Northern Light
1.3 Trang Tơng Tự (similar) và trang có chính tả gần giống
Trong một số trờng hợp thì chức năng tìm các trang tơng tự nh cáctrang mà search engine tìm ra có thể hữu dụng Để dùng chức năng này chỉviệc bấm vào cái liên kết tơng ứng Riêng trong google thì còn có link gợi ýthêm cho việc tìm kiếm bằng chữ "Did you mean "
Các trang có chức năng tìm trang tơng tự là: AltaVista (similar pages,
related pages), AOL Search (Show me more like this), Google (did you mean, similar pages).
1.4 Trang có từ nối dài(stemming)
Đây là khả năng của một số bộ máy tìm kiếm cho phép tìm nhữngtrang có chữ mà có chứa từ khoá bên trong nó
Thí dụ, thay vì chỉ tìm chữ tutor trang sẽ tìm luôn các chữ tutors, tutorial,
AOL Search (mặc định), Direct Hit, HotBot(Enable Word Stemming).
1.5 Dùng chức năng tồn trữ (cache) của google
Có nhiều trờng hợp trang WEB đã bị xoá sổ không thể hiển thị đợcnữa nhng thông tin của nó trong cơ sở dữ liệu của search engine vẫn còn màchúng ta có thể cần dùng đến Trong thời gian các tin tức này cha bị xoá khỏisearch engine thì ta có thể đọc đợc nó nhờ vào chức năng đặc biệt này củagoogle
Trang 34Thông tin cũ tồn đọng trong 'cache'
Ngoài ra, trong google, ta có thể dùng từ khoá qui ớc 'cache' để đọc trực tiếpcác thông tin này
Ví dụ: cache:cnn.com
1.6 Chuyển Dịch(translation)
Một số trang cho khả năng dịch lại trang tìm thấy sang thứ tiếng màngời dùng đang có (dịch đợc ra nhiều thứ tiếng nh Anh, Pháp, Đức, hay ViệtNam Nhng cũng cha đợc chuẩn xác) Nh vậy, ta có thể nắm đợc một phầnthông tin có thể dịch ra
Trang 35C¸c trang cã chøc n¨ng chuyÓn dÞch lµ:
AltaVista(Translate),Google(Translate this page).
1.7 §Þa chØ c¸c search engine th«ng dông
1.7.1 Trang kiÓu Spider
Meta Find www.metafind.com t×m trªn Meta Find Excite,AltaVista, Infoseek, and WebCrawler
Meta crawlwr www.metacrawler.com t×m trªn Lycos, WebCrawler,Infoseek, Excite, Thunderstone, AltaVista, GoTo, vµ Yahoo