PHẦN II: NỘI DUNG CHƯƠNG 1 : TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM GOOGLE 1.1 Khái quát chung về công cụ tìm kiếm 1.1.1 Khái niệm công cụ tìm kiếm Máy truy tìm hay còn gọi là máy tìm tin, máy
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN, ĐHQGHN
KHOA THÔNG TIN – THƢ VIỆN
==================
ĐỖ THỊ MẾN
CÔNG CỤ TÌM KIẾM GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM KIẾM TIÊU BIỂU CỦA GOOGLE
TÓM TẮT KHÓA LUẬN TỐT NGHIỆP
NGÀNH : THÔNG TIN - THƢ VIỆN
HỆ ĐÀO TẠO : CHÍNH QUY KHÓA HỌC : QH - 2006 – X
HÀ NỘI, 2010
Trang 2MỤC LỤC
PHẦN I: MỞ ĐẦU 4
1 Tính cấp thiết của đề tài 4
2 Mục đích nghiên cứu 4
3 Tình hình nghiên cứu theo hướng của đề tài 5
4 Đối tượng nghiên cứu 5
5 Phạm vi nghiên cứu 5
6 Phương pháp nghiên cứu 6
PHẦN II: NỘI DUNG 7
CHƯƠNG 1 : TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM GOOGLE 7
1.1 Khái quát chung về công cụ tìm kiếm 7
1.1.1 Khái niệm công cụ tìm kiếm 7
1.1.2 Phân loại công cụ tìm kiếm 7
1.1.2.1 Căn cứ theo phương thức hoạt động 7
1.1.2.2 Căn cứ theo đối tượng tìm kiếm 9
1.1.2.3 Căn cứ theo chức năng 9
1.1.3 Một số công cụ tìm kiếm thông dụng trên thế giới và Việt Nam 9
1.1.3.1 Các công cụ tìm kiếm thông dụng trên thế giới 9
1.1.3.2 Các công cụ tìm kiếm thông dụng tại Việt Nam 10
1.2 Giới thiệu công cụ tìm kiếm Google 10
1.2.1 Lịch sử hình thành và phát triển của Google 10
1.2.1.1 Thờ i kỳ đầu 10
1.2.1.2 Thờ i kỳ phát triển 11
1.2.1.3 Lượt truy cập 15
1.2.1.4 Mục tiêu hướng tới 15
1.2.2 Các bộ phận hợp thành của công cụ tìm kiếm Google 16
1.2.2.1 Nhện Web 16
Trang 31.2.2.2 Hệ thống chỉ mục 16
1.2.2.3 Hệ thống chỉ mục chạy thực 17
1.2.3 Cách thức hoạt động của công cụ tìm kiếm 17
1.2.4 Hệ thống xếp ha ̣ng Pagerank 19
CHƯƠNG 2: TRANG CHỦ GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM KIẾM TIÊU BIẾU 21
2.1 Trang chủ tìm kiếm Google 21
2.1.1 Giao diện tìm kiếm 21
2.1.2 Nguyên tắc tìm kiếm 21
2.1.3 Các tính năng tìm kiếm 22
2.1.4 Các chức năng chính 22
2.1.4.1 Chức năng gợi ý từ khóa 22
2.1.4.2 Chức năng tùy chọn hiển thị 23
2.1.4.3 Chức năng lịch sử web 24
2.2 Mô ̣t số di ̣ch vu ̣ tìm kiếm tiêu biểu 25
2.2.1 Dịch vụ Google Web Search 25
2.2.1.1 Tìm kiếm đơn giản 29
2.2.1.2 Tìm kiếm nâng cao 31
2.2.2 Dịch vụ Google Images 35
2.2.2.1 Tìm kiếm đơn giản 35
2.2.2.2 Tìm kiếm nâng cao 37
2.2.3 Dịch vụ Google Videos 38
2.2.3.1 Tìm kiếm đơn giản 38
2.2.3.2 Tìm kiếm nâng cao 41
2.2.4 Dịch vụ Google Maps 41
2.2.4.1 Giao diện 42
2.2.4.2 Chế độ hiển thi ̣ của bản đồ 43
2.2.4.3 Một số tính năng khác của Google Maps 44
2.2.5 Dịch vụ Google Books 44
Trang 42.2.5.1 Mục tiêu tìm kiếm sách của Google 44
2.2.5.2 Cơ sở dữ liệu sách của Google 44
2.2.5.3 Nguồn gốc sách 45
2.2.5.4 Giao diện hiển thị 46
2.2.5.5 Tìm kiếm đơn giản 46
2.2.5.6 Tìm kiếm nâng cao 47
2.2.5.7 Tính năng chính 47
2.2.6 Dịch vụ Google News 50
2.2.6.1 Tìm kiếm đơn giản 51
2.2.6.2 Tìm kiếm nâng cao 51
CHƯƠNG 3: NHẬN XÉT, ĐÁNH GIÁ VÀ TRIỂN VỌNG CỦA CÔNG CỤ TÌM KIẾM GOOGLE TRONG TƯƠNG LAI 53
3.1 Nhận xét, đánh giá 53
3.1.1 Ưu điểm 53
3.1.2 Hạn chế 53
3.2 Triển vọng của công cụ tìm kiếm Google trong tương lai 55
PHẦN III: KẾT LUẬN 57
TÀI LIỆU THAM KHẢO 58
Trang 5PHẦN I: MỞ ĐẦU
1 Tính cấp thiết của đề tài
Ngày nay các công cụ tìm kiếm đã trở thành nhu cầu tất yếu cho những người muốn tìm kiếm thông tin trên Internet Công cụ tìm kiếm là các chương trình phần mềm hoạt động trên Internet giúp định vị những tài nguyên thông tin chung Phần lớn các công cụ tìm kiếm tìm các trang web
và nhiều công cụ tìm kiếm khác còn có thể dùng để tra cứu các phần mềm, hình ảnh, tài liệu đa phương tiện và thông điệp nhóm thông tin Những thông tin liên quan trong kết quả tìm kiếm vẫn là yếu tố quan trọng hàng đầu đối với người dùng tin
Ngày càng có nhiều người dành thời gian trên các công cụ tìm kiếm với một loạt các câu lệnh tìm kiếm phức tạp kết hợp nhiều từ khóa Việc sắp xếp thông tin hợp lý có thể giúp tăng gấp đôi hiệu quả tìm kiếm Trên thế giới hiện nay có rất nhiều công cụ tìm kiếm thông tin, trong đó Google
là một trong những công cụ tìm kiếm nổi tiếng, thông dụng và hiệu quả
nhất Theo khảo sát, Google thâu tóm hơn 60% thị phần tìm kiếm “Nếu
như thư viện Alecxandria trước đây được công nhận là nỗ lực đầu tiên của loài người nhằm tập hợp toàn bộ tri thức của nhân loại vào một nơi, thì nỗ lực của chúng ta trong thời đại? Đó chính là Google” (Brewster
Kahle - sáng lập viên kiêm chủ tịch tổ chức Internet Archive)
Vậy tại sao Google lại là công cụ tìm kiếm được sử dụng phổ biến như vậy? Đề tài khóa luận hướng tới việc tìm hiểu cách thức Google tập hợp, sắp xếp thông tin trên Internet và các dịch vụ chủ yếu của Google hiện nay
2 Mục đích nghiên cứu
Tìm hiểu về Google và các dịch vụ của công cụ tìm kiếm này Từ đó
có cái nhìn sâu sắc hơn về Google, đồng thời đánh giá được những mặt tích
Trang 6cực cũng như đưa ra một vài nhận xét về ưu điểm, hạn chế và triển vọng phát triển của Google trong tương lai
3 Tình hình nghiên cứu theo hướng của đề tài
Trong những năm gần đây, khi Internet bùng nổ và phát triển mạnh mẽ
đã có những đề tài nghiên cứu khoa học, khóa luận tốt nghiệp của sinh viên nói chung và sinh viên ngành Thông tin – Thư viện nói riêng tìm hiểu về công cụ tra cứu tìm tin, so sánh giữa các công cụ tìm kiếm trên mạng Tuy nhiên, vẫn chưa có đề tài nào tìm hiểu chuyên sâu về công cụ tìm kiếm rất nổi tiếng và hiệu quả Google Chính vì lý do đó, tác giả đã quyết định lựa chọn đề tài “Công cụ tìm kiếm Google và các dịch vụ tìm kiếm tiêu biểu của Google” Nội dung đề tài vừa thể hiện được tính mới vừa có tính ứng dụng cao để tìm kiếm thông tin ngày càng hiệu quả hơn đồng thời cũng đóng góp một phần vào lý luận chung về công cụ tìm kiếm
4 Đối tượng nghiên cứu
- Công cụ tìm kiếm Google
- Một số dịch vụ tìm kiếm chủ yếu của Google bao gồm:
Dịch vụ Google Web
Dịch vụ Google Images
Dịch vụ Google Videos
Dịch vụ Google Maps
Dịch vụ Google News
Dịch vụ Google Books
5 Phạm vi nghiên cứu
- Phạm vi không gian:
+ Trang chủ tìm kiếm Google: http://www.google.com
Trang 7+ Trang chủ tìm kiếm Google tại Việt Nam: http://google.com.vn
- Phạm vi thời gian: Công cụ tìm kiếm Google từ khi thành lập đến nay (Năm 1996 – Tháng 04/2010)
6 Phương pháp nghiên cứu
- Phương pháp nghiên cứu, phân tích, tổng hợp tài liệu
- Phương pháp so sánh, đối chiếu
- Phương pháp phỏng vấn sâu
Trang 8PHẦN II: NỘI DUNG
CHƯƠNG 1 : TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM GOOGLE 1.1 Khái quát chung về công cụ tìm kiếm
1.1.1 Khái niệm công cụ tìm kiếm
Máy truy tìm hay còn gọi là máy tìm tin, máy tìm kiếm (search engine), nghĩa rộng hơn được gọi là công cụ tìm kiếm khởi đầu là một phần mềm nhằm tìm ra các trang trên Internet có nội dung theo yêu cầu của người dùng dựa vào các thông tin hiện có [7]
Như vậy, trữ lượng thông tin của công cụ tìm kiếm thực chất là một
cơ sở dữ liệu rất lớn Để xây dựng được cơ sở dữ liệu, công cụ tìm kiếm sẽ thu thập dữ liệu từ nhiều nguồn khác nhau, bằng nhiều phương pháp để đưa vào cơ sở dữ liệu, mỗi khi người sử dụng đưa ra lệnh tìm kiếm được thể hiện bằng từ khóa, công cụ tìm kiếm sẽ lục tìm trong cơ sở dữ liệu và hiển thị kết quả đáp ứng yêu cầu của người sử dụng Từ khóa được hiểu là một
tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ Tập hợp một từ khóa gồm nhiều hơn một chữ (hay một từ) có thể gọi tập hợp các chữ đó là bộ từ khóa
1.1.2 Phân loại công cụ tìm kiếm
1.1.2.1 Căn cứ theo phương thức hoạt động
- Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy truy tìm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay
"Webcrawler" Các phần mềm này sẽ tự động dò tìm và phân tích từ những
trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang
và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải Từ khoá được bỏ vào là để cho máy truy tìm lục kiếm trong bảng chỉ số của nó Kết quả tốt nhất sau
Trang 9khi phân hạng sẽ được xếp ở thứ tự đầu tiên Trang thông dụng nhất dùng nguyên tắc này là http://www.google.com
- Kiểu máy truy tìm ảo (meta-search engine): Ngày nay, người ta có
thể tận dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy tìm mới gọi là máy truy tìm ảo Nguyên tắc của loại máy truy tìm này khá đơn giản, nó không có cơ sở dữ liệu Khi hoạt động, máy truy tìm ảo sẽ gửi
từ khoá đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các kết quả tìm được Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các tài liệu tìm được cho thân chủ Ưu điểm của loại máy truy tìm này là tận dụng cơ sở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn
và nhanh hơn Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm
nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là "siêu hình" hay
"ảo") Điển hình loại này là MetaCrawler
- Kiểu thư mục đối tượng (máy truy tìm theo phân lớp) (subject
directory): Còn gọi là máy truy tìm theo phân lớp (hierarchical search
engine) - máy truy tìm này phân lớp sẵn các đối tượng vào các thư mục và
người dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho đến khi tìm ra các trang Web mà mình muốn Kiểu này dễ cho người truy cập nhưng có điểm yếu là
nó không thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra Hơn nữa, sự phân loại đôi khi không được đầy đủ và chính xác Điển hình của loại này
là http://www.yahoo.com
- Kiểu cơ sở dữ liệu đặc biệt hay còn gọi là bất khả kiến Web
(invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có
từ địa chỉ trang Web cụ thể qua các máy truy tìm; dữ liệu này tồn tại trong các cơ sở dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà các trang Web được phép sử dụng Đặc biệt, các trang Web nghiên cứu của các đại học hay học viện như http://lii.org, http://www.academicinfo.net và http://infomine.ucr.edu thuộc kiểu này
Trang 10Sau này nhiều máy truy tìm hỗ trợ người dùng qua nhiều cách thức khác nhau nên người ta ít thấy ranh giới phân chia của các máy truy tìm nữa mà thay vào đó là các hệ thống máy truy tìm lại bao gồm nhiều kiểu chức năng khác nhau Chẳng hạn như http://www.yahoo.com không còn đơn thuần là một máy truy tìm theo kiểu thư mục đối tượng mà bên cạnh đó nó cũng cung cấp luôn cả kiểu máy nhện cho người dùng
1.1.2.2 Căn cứ theo đối tượng tìm kiếm
- Tìm kiếm văn bản
- Tìm kiếm hình ảnh
- Tìm kiếm âm thanh …
1.1.2.3 Căn cứ theo chức năng
Theo cách phân loại này thì tùy theo đối tượng tìm kiếm sẽ có:
- Tìm kiếm địa chỉ trang Web
- Tìm kiếm địa chỉ thư điện tử
- Tìm kiếm thông tin riêng về một người
- Tìm kiếm thông tin về một tổ chức
- Tìm kiếm việc làm
…
1.1.3 Một số công cụ tìm kiếm thông dụng trên thế giới và Việt Nam
1.1.3.1 Các công cụ tìm kiếm thông dụng trên thế giới
Hiện nay, trên thế giới các công cụ tìm kiếm xuất hiện ngày càng nhiều, trong đó tiêu biểu là:
- Alta Vista: http://www.altavista.com
- HotBot: http://www.hotbot.com
- Google: http://www.google.com
Trang 11- Lycos : http://www.lycos.com
- MSN : http://www.msn.com
- Yahoo : http://www.yahoo.com
1.1.3.2 Các công cụ tìm kiếm thông dụng tại Việt Nam
Bên cạnh các công cụ tìm kiếm mang tầm cỡ thế giới thì ở các quốc gia, các máy tìm kiếm bản địa cũng ra đời vừa thể hiện được bản sắc văn hóa của đất nước mình vừa có thể hướng tới phục vụ cộng đồng người sử
dụng xác định như công cụ tìm kiếm www.baidu.com (Trung Quốc),
www.narver.com (Hàn Quốc), www.yandex.com (Nga)… Các công cụ tìm
kiếm này trước mắt có thể giành lấy thị trường trong nước, ngoài ra, bằng việc cập nhật công nghệ thông tin có thể mở rộng ra khu vực, châu lục, thế giới Nằm trong xu thế chung đó, ở Việt Nam cũng xuất hiện các công cụ tìm kiếm khá hữu ích Tiêu biểu là:
- Xalo: http://www.xalo.vn
- Bambo: http://bambo.com
- Socbay: http://socbay.com
- Timnhanh: http://timnhanh.com.vn
1.2 Giới thiệu công cụ tìm kiếm Google
1.2.1 Lịch sử hình thành và phát triển của Google
1.2.1.1 Thơ ̀ i kỳ đầu
Google được biết đến với ban đầu là một công trình nghiên cứu của hai nhà đồng sáng lập là Larry Page và Sergey Brin – hai nghiên cứu sinh của trường đại học Stanford, Mỹ năm 1996 Larry Page và Sergey Brin đưa ra giả thuyết cho rằng một công cụ tìm kiếm dựa vào cách phân tích các liên
hệ giữa các website sẽ đem lại kết quả tốt hơn Đầu tiên giả thuyết này được gọi bằng cái tên là Backrub (Gãi lưng) bởi vì hệ thống này dùng các
Trang 12liên kết đến để ước tính tầm quan trọng của trang Theo giả thuyết đó, họ cho rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác
sẽ là những trang thích hợp nhất Gỉa thuyết này đã được thử nghiệm trong nghiên cứu của họ và đó cũng là cơ sở đặt nền móng cho công cụ tìm kiếm Google hiện đại bây giờ
1.2.1.2 Thơ ̀ i kỳ phát triển
* Giai đoạn 1997 - 1999:
Ban đầu, Google sử dụng tên miền www.google.stanford.edu – tên
miền thuộc trang web của trường Đại học Stanford, Mỹ Sau đó, tên miền www.google.com được đăng ký vào ngày 15/9/1997
Năm 1998, dấu hiệu Beta (thử nghiệm) đã xuất hiện trên giao diện tìm kiếm đồng nghĩa với việc Google chính thức đưa công cụ này vào thử nghiệm rộng rãi Nhưng khi đó, tìm kiếm chủ yếu tập trung vào “stanford search” – tức là tìm kiếm nội dung có liên quan đến trường đại học Stanford
Trang 13Hình ảnh giao diện của Google năm 1997
* Giai đoạn từ 1999 đến nay:
Năm 1999 đánh dấu bước ngoặt quan trọng khi Google thay đổi chiến lược phát triển Đó là khi Google nhận ra rằng dịch vụ tìm kiếm web của hãng có thể đứng độc lập, bởi vì tại thời điểm đó tìm kiếm vẫn là một lĩnh vực chưa phát triển
Hình ảnh giao diện của Google năm 1999
Giao diện tìm kiếm của Google vào năm 1999 là một giao diện đơn giản nhất và có ít liên kết nhất trong tất cả các giao diện mà Google đã sử dụng Tuy nhiên, do chưa được biết đến rộng rãi nên Google vẫn phải đưa
Trang 14ra lời giải thích “search the web using Google” (có thể dịch: “Google là công cụ tìm kiếm nội dung trên web”)
Năm 2000, Google vượt qua Yahoo trở thành công cụ tìm kiếm tốt nhất (best search engine) và dấu hiệu Beta cũng không còn xuất hiện Google cũng bắt đầu cung cấp cho người dùng dịch vụ tìm kiếm mang tính địa phương hóa tức là cho phép tìm kiếm bằng nhiều ngôn ngữ khác nhau
Năm 2001 Google phát triển thêm nhiều dịch vụ hơn nữa trong đó tiêu biểu là dịch vụ Google Web Directory, Google Groups (hiện tại dịch vụ Google Web Directory không còn tồn tại) Thêm vào đó, để quảng cáo, trên hộp nhập từ khóa tìm kiếm, Google ghi rõ số lượng website mà công cụ tìm kiếm này đã đánh chỉ mục Vào thời gian này, ngày 4/9/2001, Google nhận được bằng sáng chế cho kỹ thuật sắp xếp trang web Pagerank
Hình ảnh giao diện của Google năm 2001
Năm 2002 là năm phát triển mạnh mẽ của Google khi trang công cụ tìm kiếm này đã trở nên phổ biến hơn trong cộng đồng người dùng web Và
Trang 15cũng bắt đầu từ năm 2002 người dùng được chứng kiến một logo Google đẹp và sinh động hơn rất nhiều Logo được thay đổi tùy theo từng sự kiện lớn trên thế giới hay một ngày lễ nào…
Năm 2007, Google đã thay đổi giao diện khi những liên kết trang web trước đây nằm ngay trên hộp nhập từ khóa tìm kiếm thì đã được đẩy lên góc trên cùng bên tay trái Đồng thời, các dịch vụ mà Google cung cấp cho người dùng cũng trở nên phong phú và đa dạng hơn như Google News,
Google Maps, đặc biệt là dịch vụ thư điện tử nổi tiếng Gmail (dịch vụ
email trên nền web)
Hình ảnh giao diện của Google năm 2007
Năm 2008 Google đưa ra trình duyệt mã nguồn mở Google Chrome,
và Google Translate đã bổ sung thêm tiếng Việt trong dịch vụ dịch tự động
và tích hợp ngay trong công cụ tìm kiếm, giúp người dùng nhanh chóng hiểu được cơ bản nội dung trang web trình bày bằng tiếng nước ngoài Hiện tại, Giao diện của Google có hơn 100 ngôn ngữ khác nhau Số lượng website được đánh chỉ mục chứa trong cơ sở dữ liệu của Google cũng ngày càng gia tăng nhanh chóng So với cơ sở dữ liệu ban đầu là 25
Trang 16triệu trang web năm 1998 thì đến năm 2003, Google đánh chỉ mục cho hơn
3 tỉ website, năm 2004 là 4 tỉ website, năm 2005 là 8 tỉ website
Google đặt địa chỉ tại 1600 Amphitheater Parkway, Mountain View, California, Mỹ - nơi vẫn được gọi là trụ sở đại bản doanh Googleplex Hiện tại công ty có trên 20.200 nhân viên đến từ nhiều quốc gia khác nhau, giám đốc là tiến sỹ Eric Schmidt
1.2.1.3 Lượt truy cập
Ngay từ những ngày đầu thành lập, Google đã phát triển nhanh chóng Đầu tháng 8/1999, Google phục vụ 3.000 lượt người tìm kiếm một ngày; đến tháng 9/1999, mỗi ngày Google phục vụ 3,5 triệu lượt truy cập, khoảng 65 lượt truy cập mỗi giây Đến giữa năm 2000, lượt truy cập mỗi ngày tăng lên tới 13 triệu
Tháng 6/2000, Google thay thế dịch vụ tìm kiếm cốt lõi Inktomic của Yahoo Đầu năm 2004, khi Google đã phát triển mạnh mẽ, công cụ tìm kiếm này đã xử lý trên 80% số lượng tìm kiếm trên Internet qua website www.google.com và các website của khách hàng như Yahoo, AOL, và CNN Tháng 12/2006, Google là công cụ tìm kiếm được sử dụng nhiều nhất trên mạng với 50,8% thị phần, vượt xa so với Yahoo là 23,6% và Window Live Search là 8,4% Cũng theo bảng báo cáo thống kê gần đây vào tháng 8 năm 2007 của ComScore Network, Google vượt lên đứng đầu tiên với con số 37 tỷ lượt tìm kiếm, trong khi đó Yahoo đứng vị trí thứ 2 với con số 8,5 tỷ lượt tìm kiếm
1.2.1.4 Mục tiêu hươ ́ ng tới
Tên gọi “Google” là một lối chơi chữ của từ googol, bằng 10100
Tên gọi này cũng thể hiện mu ̣c tiêu hướng tới của Google là “Tổ chức, sắp
xếp thông tin trên thế giới và làm cho nó được dễ dàng tiếp cận” Do đó,
thông tin không chỉ được thu thập, lưu trữ mà còn được sắp xếp, phân loại
Trang 17khoa học, logic Điều này vô cùng quan trọng đối với nhu cầu tìm kiếm thông tin chính xác nhất và phù hợp nhất cho người tìm tin Bởi vì trong khối lượng thông tin đồ sộ và không ngừng gia tăng đó, tìm kiếm đúng thông tin không phải là cái mục đích cuối cùng Quan điểm nhất quán của Google là thông tin được đánh giá (thông qua hệ thống xếp hạng pagerank)
và người sử dụng có thể tìm kiếm, sử dụng, truy cập, tiếp cận nó theo cách thức nhanh nhất, đơn giản nhất có thể
1.2.2 Các bộ phận hợp thành của công cụ tìm kiếm Google
Google là công cụ tìm kiếm theo kiểu máy nhện nên gồm 03 bộ phận cấu thành và phương thức hoạt động như sau:
1.2.2.1 Nhện Web
Nhện web (còn gọi là rôbốt phần mềm chuyện biệt, tên khác là bọ tìm kiếm) Đây là một chương trình phần mềm chuyên biệt, có thể nhảy từ đường dẫn này sang đường dẫn khác trên hệ thống mạng toàn cầu World Wide Web Do đó, nhện web được thường coi như một rôbốt lướt khắp nơi qua các khu vực trên không gian mạng Nhưng thực tế là nhện web không
đi đâu cả, chúng hoạt động cố định trên một máy chủ riêng, từ đó gửi đi một số lượng lớn các truy vấn đến các trang web lên mạng
Nhện web có cấu trúc phức tạp nhưng nguyên tắc hoạt động khá đơn giản: nhện web liên tục quay số tìm kiếm các đường dẫn URL, rồi báo cáo kết quả tìm thấy
Trong các bộ phận của một công cụ tìm kiếm, nhện web là bộ phận giữ vai trò quan trọng nhất, bởi mức độ hoàn thiện của hệ thống chỉ mục phụ thuộc vào số lượng trang web và tần suất duyệt web của nhện web Các trang kết quả tìm kiếm của mỗi một truy vấn sẽ có nội dung phù hợp hơn khi hệ thống chỉ mục dần hoàn thiện
1.2.2.2 Hệ thống chỉ mục
Trang 18Hệ thống chỉ mục là một cơ sở dữ liệu nhưng có quy mô rất lớn
Hệ thống chỉ mục thô giống như một danh mục được sắp xếp theo tên miền: hệ thống chỉ mục liệt kê ra tất cả các trang trên một địa chỉ web, cùng với mọi thông tin thích hợp về những trang này như: các từ, các kết nối, các ký tự trong và xung quanh một kết nối Hệ thống chỉ mục được tách thành nhiều mảng nhỏ, phụ thuộc vào dữ liệu được xử lý hay chưa và mức độ sẵn sàng của chúng để người tìm kiếm sử dụng
1.2.2.3 Hệ thống chỉ mục chạy thực
Hệ thống chỉ mục chạy thực (hay còn gọi là bộ xử lý thông tin truy
vấn) là phần mềm giao diện và tương thích nhằm kết nối các thông tin truy
vấn của người sử dụng với hệ thống chỉ mục Có thể hiểu một cách đơn giản là phần liên kết hai bộ phận của một công cụ tìm kiếm với phần sau bao gồm nhện web, hệ thống chỉ mục và phần trước gồm ứng dụng truy vấn chỉ và giao diện cho người sử dụng
Ba bộ phận này có ảnh hưởng quyết định đến chất lượng và tốc độ của công cụ tìm kiếm, nhưng bên cạnh đó còn có rất nhiều nhân tố khác chi phối đến chất lượng tổng thể của một công cụ tìm kiếm
1.2.3 Cách thức hoạt động của công cụ tìm kiếm
Quy trình tìm kiếm được bắt đầu khi một truy vấn tìm kiếm được đưa ra Truy vấn ở đây có thể hiểu là các từ khóa, câu hỏi để tìm ra câu trả lời, một trang web, hay về một kiến thức nào đó Truy vấn này sẽ định hướng đến quy trình tìm kiếm
Quy trình tìm kiếm trang kết quả bắt đầu với nhện web Dựa trên các truy vấn, các trang web được tìm ra và nhện web đưa các trang này vào hệ thống chỉ mục Các kết nối trên trang web sẽ được ghi chú lại, sắp xếp và đưa vào các tệp (file) để gửi đi truy vấn Như vậy với một kết nối mới được tìm ra sẽ có thêm các truy vấn mới, và cứ tiếp tục như vậy cho đến vô cùng
Trang 19Nhện web không chỉ tìm ra và lưu vào hệ thống chỉ mục tiêu đề của mỗi trang web mà còn là nội dung của toàn bộ trang web và các loại tệp khác như PDF, các văn bản trong Microsoft Office, âm thanh, hình ảnh và các siêu dữ liệu – thông tin cấu trúc từng trang do chủ trang web cung cấp về các trang và thông tin được duyệt Nhện web sau khi gửi dữ liệu tìm thấy
về hệ thống chỉ mục, các thông tin này được sắp xếp để người tìm kiếm biết đường dẫn URL, và có thể tìm thấy những từ có liên quan đến đường dẫn đó
Đây là một công đoạn rất quan trọng bởi vì bước tiếp theo trong việc tạo ra một hệ thống chỉ mục thông minh là đảo ngược cơ sở dữ liệu – về bản chất, nhằm tạo ra một danh sách các từ liên quan đến đường dẫn URL Google đã nhận sớm nhận ra cơ sở dữ liệu với khả năng ghi chú lại những mẫu thống kê, và các kết quả của thuật toán là cách tốt nhất nhằm cung cấp kết quả phù hợp với các truy vấn
Qúa trình nhận dạng một hệ thống chỉ mục được coi như một sự phân tích Thuật toán Pagerank của Google cũng dựa vào cách phân tích này: Pagerank phân tích các liên kết trên một trang web, từ neo xung quanh các liên kết này, và số lượng liên kết ngoài của các trang web, tổng hợp các yếu tố này lại và tìm ra mức độ phù hợp của một trang web với một truy vấn Và Google thường phân tích dựa trên hơn 100 yếu tố để tìm ra mức độ phù hợp với nội dung trang web với mỗi truy vấn
Trong suốt quá trình phân tích, chỉ mục sẽ tập hợp các thẻ - một loại siêu dữ liệu khác (dữ liệu miêu tả về dữ liệu) Trang web có thể được thẻ chỉ thị để hiển thị theo một ngôn ngữ nhất định hay được chỉ thị để được liệt vào các nhóm trang web có nội dung như thông tin rác, khiêu dâm, hay trang web ít được cập nhật Và các siêu dữ liệu này là yếu tố then chốt giúp các công cụ tìm được kết quả phù hợp nhất
Trang 20Sau khi được phân tích, lưu chỉ mục và đánh dấu bởi các thẻ, các dữ liệu do nhện web đem lại được đổ vào hệ thống chỉ mục chay thực – cơ sở
dữ liệu có thể ngay lập tức cung cấp kết quả tìm kiếm cho người dùng Và đây cũng là hoạt động để kết thúc một quá trình tìm kiếm
Tóm lại, hoạt động của công cụ tìm kiếm gồm ba phần chính Ba phần này biến đổi tùy theo độ lớn và sự phát triển không ngừng của trang web, đó là nhện web tìm kiếm, lưu dữ liệu vào chỉ mục và đưa ra các trang kết quả tìm kiếm Đây là một nhiệm vụ không hề đơn giản bởi vì khối lượng tài nguyên thông tin trên mạng là vô cùng lớn thêm vào đó là sự phát triển không ngừng với sự ra đời của các trang web mới, cho nên theo tính toán “Google đã sử dụng hơn 175.000 máy tính cho công việc này Con số này lớn hơn tổng số máy tính thế giới vào thập niên 1970”.[9]
1.2.4 Hệ thống xếp hạng Pagerank
Trước khi tìm hiểu về hệ thống xếp hạng Pagerank, chúng ta cần tìm hiểu về phương pháp trích dẫn và chú giải, thứ ha ̣ng của ngành xuất bản ấn phẩm Bởi vì phương pháp này đã định hướng đến phương thức hoạt động của Google Mặt khác, việc sắp xếp thứ hạng các trang web là vô cùng quan trọng đối với các công cụ tìm kiếm Điều này sẽ sắp xếp các trang web ở các vị trí khác nhau trên trang kết quả
* Trích dẫn: “Là danh mục tài liệu tham khảo hay danh sách các
thông tin quan trọng về ấn phẩm đó, cho phép người ta xác định và định vị
nó”
(Khái niệm của thư viện đại học Massachusets, Mỹ)
* Chú giải: Theo định nghĩa của ngành xuất bản ấn phẩm, chú giải là hành vi bổ sung vào các trích dẫn ghi chú có tính chất mô tả Vì vậy, chú giải giống như sự đánh giá về tài liệu được trích dẫn
Trang 21* Thứ hạng: Có thể hiểu là sự đánh giá về một ấn phẩm vừa bởi ý tưởng nguyên thủy, nội dung và độ sắc sảo của các trích dẫn trong đó, vừa theo số lượng ấn phẩm mà nó trích dẫn, số lượng ấn phẩm khác trích dẫn tới nó và tầm quan trọng của các trích dẫn đó
Những khái niệm này là cơ sở cho hệ thống xếp hạng Pagerank của Google Nhưng trước khi Pagerank ra đời, Larry Page đã đưa ra giả thuyết
về hệ thống BackRub Đây là hệ thống cho phép tìm kiếm các liên kết trên web, lưu trữ để phân tích, rồi tái bản chúng trong một dạng mới cho phép người tìm kiếm nhìn thấy tất cả các đối tượng được liên kết với nhau trên web
Dựa trên khái niệm thứ hạng trong ngành xuất bản ấn phẩm, ông đã đưa ra lý thuyết rằng, kiến trúc các đồ thị web vừa cho biết những đối tượng được liên kết với nhau vừa chỉ ra được tầm quan trọng của những đối tượng được liên kết này dựa trên những thuộc tính khác nhau của chúng, ví dụ như các ký tự neo xung quanh liên kết, là nhân tố quyết định thứ hạng
và mức độ phù hợp của một trang Khi biết được tầm quan trọng của một trang, Backrub sẽ đưa ra một thứ hạng tương đối cho trang đó Với mỗi một trang được xếp hạng sẽ cho thấy các liên kết tới trang đó, và cả thứ hạng của những liên kết này Thuật toán để đếm được số trang liên kết với một trang cụ thể và cả số liên kết tới các trang liên kết đó được gọi là thuật toán Pagerank
Thuật toán Pagerank tương tự như phương pháp đếm các trích dẫn trong ngành xuất bản ấn phẩm
Ví dụ :
Để vào trang web www.tinhvan.com có rất nhiều đường liên kết tới
nó Đường liên kết tới www.tinhvan.com có thể là một đối tác kinh doanh của công ty trong lĩnh vực công nghệ như công ty IBM hoặc Intel, hoặc là
từ khách hàng là tapchiquehuongonline Câu hỏi là làm thế nào để xác định
Trang 22thứ hạng cho hai trích dẫn này? Đặt giả thuyết vì IBM hay Intel là những trang web rất tiêu biểu trong lĩnh vực này, nên đối tác kinh doanh là IBM với Intel là liên kết quan trọng hơn Gỉa sử chỉ có vài trang được liên kết với trang của tapchiquehuongonline và những trang này cũng không có nhiều liên kết với nó Ngược lại, có rất nhiều trang được liên kết với IBM
và Intel và những trang này trung bình cũng có khoảng hàng nghìn liên kết
Như vậy, theo Pagerank, thứ hạng trang của tapchiquehuongonline
sẽ thấp hơn thứ hạng của trang IBM hay Intel
CHƯƠNG 2:
TRANG CHỦ GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM KIẾM TIÊU BIỂU
2.1 Trang chủ tìm kiếm Google
Trang chủ Google được thiết kế với giao diện đơn giản, dễ nhìn, ít chi tiết
2.1.1 Giao diện tìm kiếm
Gồm một hộp để nhập từ khóa tìm kiếm với hai nút để người dùng sử dụng gửi đi từ khóa
- Google search: xử lý từ khóa và tạo một danh sách kết quả
- I’m feeling lucky (Xem trang đầu tiên tìm được): Nút này sẽ tự động đưa người dùng đến trang web đầu tiên tìm thấy thay vì hiển thị danh sách
Trang 23nhiên, nếu người dùng nhập một đ oạn văn quá dài , sẽ gây ra tình trạng thiếu chính xác về mục đích tìm kiếm và kết quả tìm được trả về sẽ rất lớn Điều này gây ra tình tra ̣ng thừa thông tin
- Google không phân biệt chữ hoa và chữ thường Do đó, ngườ i dùng không phải quan tâm đến vấn đề này Kết quả trả về vẫn là giống nhau
- Dấu trích dẫn là cần thiết khi muốn nhấn mạnh từ khóa cần tìm kiếm Tuy nhiên, không nên áp dụng cho một câu dài
- Không sử dụng các dấu chấm câu giữa các từ khóa Vì điều này là không cần thiết, kết quả trả về với dấu chấm câu và không có dấu chấm câu vẫn là bằng nhau
VD : Để tìm hiểu về vấn đề : Phần mềm công nghệ thông tin -) Nếu sử dụng từ khóa là : công nghệ thông tin
Kết quả là 6.440.000 đầu mục -) Nếu sử dụng từ khóa là : « phần mềm » AND « công nghệ thông tin »
Kết quả sẽ ít hơn với 2.330.000 đầu mục
2.1.3 Các tính năng tìm kiếm
- Tìm kiếm đơn giản
- Tìm kiếm nâng cao
Trang 242.1.4.1 Chức năng gợi ý từ khóa
Chức năng gợi ý từ khóa được Google đưa vào sử dụng vào giữa năm
2008 Hiện tại, chức năng này được bổ sung cho Google Web, Google Images, Google Videos, và Google News Chức năng gợi ý sẽ hiển thị các nội dung phổ biến nhất có chứa từ khóa đang tìm Những gợi ý này nhằm mục đích giúp người dùng có thể đưa ra những lựa chọn chính xác hơn cho
ý định tìm kiếm, từ đó có thể có những kết quả tốt nhất
Hình minh hoạ
2.1.4.2 Chức năng tùy chọn hiển thị
Với chức năng này người dùng có thể thay đổi mặc định của trang chủ Google theo nhu cầu sử dụng của bản thân, và các thay đổi này sẽ được
áp dụng cho tất cả các dịch vụ của Google như lựa chọn ngôn ngữ giao diện, ngôn ngữ tìm kiếm, mở cửa sổ kết quả bằng một trình duyệt mới, hiển thị số lượng kết quả trên mỗi trang…
Trang 25
Hình minh hoạ
2.1.4.3 Chức năng lịch sử Web
Lịch sử web cung cấp cho người dùng kết quả tìm kiếm và gợi ý phù hợp khác dựa trên hoạt động web Do đó, chức năng này thể hiện được rất
rõ tính cá nhân hóa trên Google Bởi vì, mục đích của lịch sử Web nhằm :
◊ Xem và quản lý hoạt động của trang web :
Người dùng có thể xem và tìm kiếm toàn bộ nội dung những trang web
đã truy cập, bao gồm tìm kiếm Google, trang web, hình ảnh, videos và nội dung câu chuyện
◊ Nhận kết quả phù hợp nhất :
Lịch sử web cung cấp thêm kết quả tìm kiếm được cá nhân hóa dựa trên những gì mà người dùng đã tìm kiếm trên Google và những trang web đã truy cập
◊ Theo dõi các xu hướng trong hoạt động web của người dùng :
Trang 26Dựa trên những kết quả tìm kiếm và các trang web đã truy cập, người dùng có thể tìm các xu hướng về hoạt động của mình, ví dụ như những trang web đã truy cập nhiều nhất và các tìm kiếm nhiều nhất
Hình minh hoạ
2.2 Một số dịch vụ ti ̀m kiếm chủ yếu của Google
2.2.1 Tìm kiếm web:
Tìm kiếm web là dịch vụ đầu tiên và quan trọng nhất của Google
* Thông tin trong trang kết quả tìm kiếm:
Trong kết quả tìm kiếm của Google thường bao gồm các thông tin chính sau:
(1) Bảng tóm tắt trang kết quả tìm kiếm:
- Tìm kiếm kết quả theo tiêu chí (web, hình ảnh, video, blog, tin tức )
- Kết quả hiển thị từ đến trong tổng số trang thỏa mãn điều kiện tìm kiếm
- Từ khóa tìm kiếm
Trang 27- Thời gian tìm kiếm
(2) Kết quả tìm kiếm:
Kết quả là danh sách trang web có chứa cụm từ thoải mãn điều kiện tìm kiếm Kết quả không chỉ là các trang web mà còn có thể là các định
dạng khác như Word, Excell, PDF…
(3) Các kết quả tìm kiếm liên quan:
Với trường hợp từ khóa mang nghĩa bao trùm, Google cũng đưa ra các gợi ý được đặt ở cuối trang tìm kiếm
Hình minh hoạ
(4) Các kết quả nhận được bao gồm:
- Tên trang web và liên kết tới trang đó
- Bên dưới là một đoạn trích dẫn có chứa từ khóa tìm kiếm trong trang đó
- Phía dưới đoạn trích dẫn là địa chỉ URL không được liên kết và do
đó không thể truy cập trực tiếp được vào địa chỉ này
- Bên cạnh địa chỉ URL là thời gian mà Google đưa nội dung vào bộ nhớ cache
(5) Truy cập vào bộ nhớ cache của Google:
Khi người dùng nhấp chuột vào nút tức là đã truy cập vào trang web được lưu vào bộ nhớ của Google chứ không phải truy cập vào trang web gốc trên internet Với cách truy cập này, các cụm
từ tìm kiếm sẽ được đánh dấu để người dùng dễ theo dõi Tuy nhiên, việc truy cập vào bộ nhớ cache của Google có thể sẽ nhận được thông tin cũ
Trang 28bởi vì sau một khoảng thời gian nhất định thì Google mới cập nhật lại thông tin của các trang web gốc Google đưa ra thông báo các thông tin tóm tắt sau:
Trong thông báo trên, Google cho biết thời gian lưu trang web vào
bộ nhớ của cache và cũng nhắc nhở người dùng biết từ thời gian đó, trang web gốc có thể đã thay đổi Trường hợp, người dùng muốn vào trang web gốc có thể nhấp vào dòng chữ Trang hiện tại
(6) Liên kết tới trang có nội dung tương tự:
Phía dưới của các kết quả tìm kiếm thường có nút để liên kết tới các trang có nội dung tương tự hoặc gần giống với trang web này Điều này cũng giúp cho người tìm được nhiều thông tin có ích
VD: Với trang www.echip.com.vn, khi chọn các trang tương tự ta sẽ nhận được các trang web:
Trang 29(7) Một số trang web cùng tên miền:
Với một số trường hợp, một số trang web nằm thụt vào so với trang khác Trang web này là có cùng tên miền để thông báo với người sử dụng rằng không nên nhấp chuột vào cả hai trang web Google có thể liệt kê tất
cả các trang nằm trong một tên miền nếu trang đó cùng liên quan đến cụm
từ tìm kiếm
Hình minh hoạ
Với các kết quả dạng này, người dùng có thể xem tất cả các trang web cùng tên miền có chứa cụm từ cần tìm kiếm bằng cách nhấp chuột vào nút
Trang 30
(8) Lời thông báo nhắc nhở:
Trong trường hợp ngườ i dùng gõ nhập sai chính tả từ khóa, Google
sẽ đưa ra lời thông báo dưới dạng câu hỏi để ho ̣ cân nhắc lại từ khóa tìm kiếm
Hình minh hoạ
2.2.1.1 Tìm kiếm đơn giản:
Ngườ i dùng có thể gõ trực tiếp vào ô google search ở trang chủ của Google truy vấn tìm kiếm của mình được thể hiện bằng từ khóa có thể là một từ, cụm từ, một câu hỏi, hoặc bằng những cú pháp cụ thể Điều này sẽ giúp cho việc tìm kiếm trở nên chính xác, thu gọn kết quả tìm
Bảng từ khóa tìm kiếm của Google
Từ,cụm từ, câu hỏi
Nhâ ̣p vào ô search từ khóa có
thể là 1 từ, cụm từ hay 1 câu hỏi
- Máy tính
- Công nghệ thông tin
- Tác giả Truyện Kiều là ai?
Toán tử
AND
Xuất hiê ̣n tất cả các từ khóa
Nhâ ̣p các từ, cụm từ vào ô seach được tách rời bằng AND
- Phần mềm AND Công nghê ̣ thông tin