Bài giảng Web search - Bài 1: Tổng quan về các máy tìm kiếm. bài này cung cấp cho học viên những kiến thức về: khái niệm và đặc điểm của máy tìm kiếm dữ liệu trên Internet; cấu trúc của các máy tìm kiếm dữ liệu trên Internet; cấu trúc webpage trong kết quả tìm kiếm trả về và nguyên tắc hoạt động của máy tìm kiếm;... Mời các bạn cùng tham khảo!
Trang 1BÀI SỐ
1
TỔNG QUAN VỀ
CÁC MÁY TÌM KIẾM
TS Nguyễn Trần Hưng Khoa HTTT Kinh tế và TMĐT
Trang 2NỘI DUNG CHÍNH
• 1.2 Cấu trúc của các máy tìm kiếm dữ liệu trên
Internet
• 1.3 Cấu trúc webpage trong kết quả tìm kiếm trả về
và nguyên tắc hoạt động của máy tìm kiếm.
• 1.4 Máy tìm kiếm theo chủ đề và máy tìm kiếm toàn
bộ văn bản
• 1.1 Khái niệm và đặc điểm của máy tìm kiếm dữ liệu
trên Internet
• 1.5 Máy tìm kiếm AND và máy tìm kiếm OR
• 1.6 Phối hợp toán tử và từ bổ nghĩa của các máy tìm
Trang 31.1 Khái niệm và đặc điểm của máy tìm
kiếm dữ liệu trên Internet
• Khái niệm máy tìm kiếm (Search Engines)
Khái niệm
Máy tìm kiếm là một website được thiết kế đặc biệt để giúp đỡ người sử dụng tìm kiếm các thông tin theo yêu cầu trên môi trường mạng Internet
Trang 4Đặc điểm của máy tìm kiếm dữ liệu trên
Internet
• Tìm kiếm trong cơ sở dữ liệu được tự động xây dựng bởi một robot, không phải do con người xây dựng.
• Máy tìm kiếm sẽ so sánh các từ khóa người dùng
nhập vào vào cửa sổ tìm kiếm với các từ được viết ở các trang web mà nó lưu trữ.
• Luợng thông tin mà các máy tìm kiếm có thể chứa
đựng hơn 90% nội dung của các trang web có thể xử
lý được.
• Kết quả tìm kiếm của người dùng phụ thuộc vào khả năng sử dụng nhuần nhuyễn các tính năng và cú pháp của máy tìm kiếm.
Trang 51.2 Cấu trúc của máy tìm kiếm dữ liệu
trên Internet
Các bộ phận cấu thành
Bộ thu thập thông tin
(web spider, web
wanderer, web worm)
Bộ lập chỉ mục (Index) – Hệ thống phân tích
và xử lý dữ liệu
Bộ tìm kiếm thông tin –
Search Engine
Trang 61.3 Cấu trúc webpage trong kết quả trả về và nguyên tắc hoạt động của máy tìm kiếm
• Cấu trúc webpage trong kết quả trả về
Trang 7Nguyên tắc hoạt động của máy tìm kiếm
Trang 81.4 Máy tìm kiếm theo chủ đề và máy tìm
kiếm toàn bộ văn bản.
Hai trường phái tìm
kiếm thông tin
Máy tìm kiếm toàn bộ
văn bản
Máy tìm kiếm theo chủ đề
Yahoo Yandex
Trang 9http://www.google.com.vn
Trang 10http://www.dmoz-odp.org
Trang 11http://www.odp.org
Trang 12Tại sao lại có hai cách thức tìm kiếm
Máy tìm kiếm toàn bộ
văn bản
Tìm kiếm những kiểu thông tin được phân biệt rõ ràng.
Những lời trích dẫn, những bài hát.
Những địa chỉ, những câu hỏi phức tạp, những nơi ít được biết đến
Máy tìm kiếm theo
chủ đề
Rất hứu ích cho sự tìm kiếm chung, tìm kiếm các đề tài chung, các tiêu đề chung.
Trang 131.5 Máy tìm kiếm AND và máy tìm kiếm OR.
Điều đầu tiên và quan trọng nhất khi tiến hành tìm kiếm
thông tin đó là cần phải biết về một máy tìm kiếm thuộc
loại nào: tìm kiếm toàn bộ văn bản hay là một máy tìm
kiếm theo chủ đề và sau đó là máy tìm kiếm đang sử dụng
được mặc định AND hay OR
Mặc định tìm kiếm AND
Mặc định tìm kiếm OR
Trang 14Ví dụ về một máy tìm kiếm được mặc định AND
Trang 15Ví dụ về máy tìm kiếm mặc định OR
Trang 161.6 Phối hợp toán tử và từ bổ nghĩa
của các máy tìm kiếm
• Những toán tử và từ bổ nghĩa này sẽ khiến cho máy tìm
kiếm biết được chính xác bạn đang muốn những từ tìm
kiếm sẽ được xử lý như thế nào.
Toán
tử
+: Phải xuất hiện trong kết quả tìm
kiếm -: Không được xuất hiện trong kết
quả tìm kiếm
Trang 17Ví dụ về tìm kiếm có từ bổ nghĩa đại số Boolean
+Electronic Commerce –Security
Trang 18Những từ bổ nghĩa bên ngoài đại số Boolean
Ngoài các từ bổ nghĩa đại số Boolean cơ bản là : +
và -, còn có rất nhiều các từ bổ nghĩa bên ngoài vượt
ra khỏi đại số Boolean tới những cú pháp đặc biệt.
NEAR (gần)
OR(hoặc)
~ Synonym (Từ đồng nghĩa)