1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google.

70 82 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 4,55 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tài liệu trình bày tổng quan về hệ thống tìm kiếm Google; một số kỹ thuật khai thác thông tin bậc cao qua hệ thống tìm kiếm Google và các phương pháp bảo vệ thông tin; áp dụng một số kỹ thuật tấn công và khai thác thông tin bậc cao qua hệ thống tìm kiếm Google.

Trang 1

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

MỤC LỤC

DANH MỤC CÁC BẢNG 3

DANH MỤC CÁC HÌNH VẼ 4

LỜI NÓI ĐẦU 6

CHƯƠNG I TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM GOOGLE 7

1.1.Giới thiệu về Google và hệ thống tìm kiếm Google 7

1.1.1 Tổng quan về Google 7

1.1.2 Giao diện các trang web của Google 11

1.1.3 Tìm kiếm thông thường 12

1.1.4 Tìm kiếm nâng cao 17

1.2 Tầm quan trọng của hệ thống tìm kiếm Google 22

1.3 Phương pháp khai thác thông tin qua hệ thống tìm kiếm Google 23

1.3.1 Googlebot , máy thu thập trang web của Google 23

1.3.2 Indexer của Google 25

1.3.3.Bộ xử lý truy vấn của Google 26

CHƯƠNG II: MỘT SỐ KỸ THUẬT KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE VÀ CÁC PHƯƠNG PHÁP BẢO VỆ THÔNG TIN 27 2.1 Các cú pháp tìm kiếm nâng cao trong Google 27

2.1.1 Intitle and Allintitle 28

2.1.2.Inurl và Allinurl 30

2.1.3 Filetype 31

2.1.4 Allintext 33

2.1.5 Site 33

2.1.6 Link 34

2.1.7 Cache 35

2.1.8 Info 35

2.1.9 Related 36

2.1.10 Define 37

2.1.11 Phonebook 38

2.1.12 Daterange 40

Trang 2

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

2.1.13 Inanchor 41

2.1.14 Numrange 41

2.1.15 Author 41

2.1.16 Group 44

2.1.17 Insubject 44

2.1.18 Msgid 45

2.1.19: Stocks 47

2.2 Khai thác thông tin qua hệ thống tìm kiếm Google 47

2.2.1 Liệt kê thư mục (Directory Listings) 48

2.2.2 Kỹ thuật thay thế gia tăng (Incremental Substitution) 51

2.2.3 Extension Walking 52

2.2.4 Ẩn danh khi truy cập site với bộ nhớ Caches (Anonymity with Caches) 52

2.3 Các giải pháp bảo vệ thông tin 55

2.3.1 Xây dựng chính sách bảo mật 55

2.3.2.Những biện pháp bảo vệ máy chủ web 55

2.3.4 Trợ giúp từ Google 61

CHƯƠNG III: ÁP DỤNG MỘT SỐ KỸ THUẬT TẤN CÔNG VÀ KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE 63

3.1 Mục đích 63

3.2.Mô hình triển khai 63

3.3.Các bước thực hiện 64

3.3.1 Áp dụng cú pháp bậc cao để tìm những trang web bị lỗi SQL injection 64

3.3.2 Áp dụng cú pháp bậc cao để khai thác thông tin nhạy cảm 66

3.4.Kết quả 68

3.5.Đánh giá kết quả 68

KẾT LUẬN 69

TÀI LIỆU THAM KHẢO 70

Trang 3

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

DANH MỤC CÁC BẢNG

Bảng 1.1: Chi tiết về giao diện của Google 12

Trang 4

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Trụ sở Google tại Mountain View, California, USA 8

Hình 1.2: Giao diện chính của Google (www.google.com.vn) 11

Hình 1.3: Google Search với từ khóa "Youtube" 13

Hình 1.4: Google Search hình ảnh với từ khóa "youtube" 14

Hình 1.5 Google Search video với từ khóa "youtube" 15

Hình 1.6: Trang cài đặt tìm kiếm 16

Hình 1.7: Google dịch 17

Hình 1.8: Trang tìm kiếm nâng cao (1) 20

Hình 1.9: Trang tìm kiếm nâng cao (2) 21

Hình 1.10: Trang thêm URL 24

Hình 2.1: Tiêu đề của trang web 28

Hình 2.3: Cú pháp intitle 29

Hình 2.4: So sánh kết quả allintitle 30

Hình 2.5: Tìm kiếm với inurl 30

Hình 2.6: So sánh kết quả với allinurl 31

Hình 2.7: Một số loại tập tin phổ biến và phần mở rộng trong hệ thống tìm kiếm Google 32

Hình 2.8: 25 loại tập tin phổ biến nhất 32

Hình 2.9: Cú pháp Site 33

Hình 2.10: Cú pháp nâng cao với Site 34

Hình 2.11: Cú pháp Link 35

Hình 2.12: Cú pháp info 36

Hình 2.13: Cú pháp Related 37

Hình 2.14: Cú pháp define 38

Trang 5

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 2.15: Cú pháp Phonebook 39

Hình 2.16: Cú pháp Bphonebook 40

Hình 2.17: Cú pháp Author 42

Hình 2.18: Cú pháp author: “Tống Đình Quỳ” 43

Hình 2.19: Cú pháp author:Tống Đình Quỳ 43

Hình 2.20: Cú pháp Group 44

Hình 2.21: Một dạng điển hình của Group Message 46

Hình 2.22: Message ID của một cổng 46

Hình 2.23: Cú pháp Stock 47

Hình 2.24: Kết quả của Directory Listings website http://forum.hocvienact.edu.vn/ 48 Hình 2.25: Kết quả tìm kiếm thư mục đặc biệt 49

Hình 2.26: Kết quả hiển thị danh sách thư mục cho đường dẫn…/bpa/acadunits/admin/envr/bowman 50

Hình 2.27: Tất cả đều được lưu trong Google cache 53

Hình 2.28: Directory listing tiết lộ vị trí tập tin htaccess 56

Hình 2.29: Cú pháp tìm kiếm tập tin robots.txt 58

Hình 2.30: Nội dung của một tập tin roots.txt 59

Hình 2.31: Trang web của Google dành cho quản trị viên web 62

Hình 2.32: Trang web để loại bỏ URL 62

Hình 3.1: Mô hình mô tả quá trình tìm kiếm của Google 64

Hình 3.2: Các trang web có thể bị lỗi SQL injection 65

Hình 3.3: Trang web bị lỗi SQL injection 65

Hình 3.4: Một số thông tin của trang web bị lỗi SQL injection 66

Hình 3.5: Một số trang web có chứa thông tin nhạy cảm 67

Hình 3.6: Nội dung của tập tin backup.sql 67

Trang 6

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

LỜI NÓI ĐẦU

Trong thời đại phát triển thông tin hiện nay, khi mà Internet đã phát triển toàn cầu thì việc tìm kiếm thông tin trên mạng là điều không thể thiếu Có một công cụ tìm kiếm mà cả thế giới đều biết đến và sử dụng đó là Google Từ thời điểm ra mắt tới giờ, Google đã phát triển trở thành một trong những công ty lớn nhất thế giới, phục vụ hàng triệu người mỗi ngày Vậy tại sao nó lại có được những bước thành công to lớn đến như vậy, đó là nhờ việc áp dụng các thuật toán thông minh nhất với việc tích hợp đến hơn 200 thông tin ràng buộc để có thể đưa ra kết quả một cách nhanh nhất và chính xác nhất Hơn nữa, nó cũng có khả năng chấp nhận những lệnh được định nghĩa sẵn mà khi nhập vào sẽ đưa lại những kết quả mà tìm kiếm thông thường không có được Điều này cho phép những người dùng có ý xấu như tin tặc, cracker, script kiddies v.v sử dụng cỗ máy Google để thu thập những thông tin bí mật và nhạy cảm hay những thông tin không thể tìm thấy bằng những phương pháp tìm kiếm thông thường

Trong bản báo cáo nghiên cứu này,nhóm chúng em sẽ phân tích và làm rõ những đặc điểm, những phương pháp khai thác thông tin bằng Google mà những người quản trị hay chuyên gia bảo mật phải phòng chống để tránh cho những thông tin bí mật có thể bị tìm ra và khai thác:

 Những cú pháp tìm kiếm nâng cao với Google

 Tìm kiếm những Site hoặc Server(máy chủ) dễ bị tấn công sử dụng những

cú pháp nâng cao của Google

 Bảo mật cho servers hoặc sites khỏi sự tấn công của Google

Với sự hướng dẫn tận tình của thầy Phạm Minh Thuấn chúng em đã hoàn thành bài báo cáo này Tuy đã cố gắng hết sức tìm hiểu, phân tích nhưng không thể tránh khỏi những thiếu sót Chúng em rất mong nhận được sự thông cảm và góp ý của các thầy cô

Chúng em xin chân thành cảm ơn!

Trang 7

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

CHƯƠNG I TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM

GOOGLE

Như chúng ta đã biết, Google đã trở thành một công cụ hữu ích cho toàn bộ người dùng Internet nhờ vào khả năng tìm kiếm và xử lý thông tin một cách thông minh và dễ dàng Trong chương này chúng ta sẽ tìm hiểu một cách khái quát về sự phát triển của Google, các giao diện và cách hoạt động của nó

1.1.Giới thiệu về Google và hệ thống tìm kiếm Google

1.1.1 Tổng quan về Google

Khởi đầu

Công ty Google đã đạt được nhiều thành tựu quan trọng cho dù thời gian hoạt động còn khá ngắn Từ khi Google được sáng lập năm 1998, Google đã phát triển, phục vụ hàng trăm nghìn người dùng và khách hàng trên khắp thế giới

Đầu tiên (1996) Google là một công trình nghiên cứu của Larry Page và Sergey Brin, hai nghiên cứu sinh tại trường Đại học Stanford Họ có giả thuyết cho rằng một công cụ tìm kiếm dựa vào phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn cách đang được hiện hành lúc bấy giờ (1996)

Đầu tiên nó được gọi là BackRub (Gãi lưng) tại vì hệ thống này dùng các liên kết

đến để ước tính tầm quan trọng của trang

Page và Brin tin rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác sẽ là những trang thích hợp nhất Họ đã quyết định thử nghiệm giả thuyết trong nghiên cứu của họ, tạo nền móng cho công cụ Google hiện đại bây giờ (http://www.google.com) Tên miền www.google.com được đăng ký ngày 15 tháng

9 năm 1997 Họ chính thức thành lập công ty Google, Inc ngày 7 tháng

9 năm 1998 tại một ga ra của nhà Esther Wojcicki (cũng là nhân viên thứ 16 của Google, Phó Chủ tịch cấp cao, phụ trách bộ phận quảng cáo) tại Menlo Park, California Trong tháng 2 năm 1999, trụ sở dọn đến Palo Alto, là thành phố có nhiều trụ sở công ty công nghệ khác Sau khi đổi chỗ hai lần nữa vì công ty quá lớn,

Trang 8

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

trụ sở nay được đặt tại Mountain View, California tại địa chỉ 1600 Amphitheater Parkway vào năm 2003

Công cụ tìm kiếm Google được nhiều người ủng hộ và sử dụng vì nó có một cách trình bày gọn và đơn giản cũng như đem lại kết quả thích hợp và nâng cao Trong năm 2000, Google đã bắt đầu bán quảng cáo bằng từ khóa để đem lại kết quả thích hợp hơn cho người dùng Những quảng cáo này chỉ dùng văn chứ không dùng hình để giữ chất đơn giản của trang và tránh sự lộn xộn và đồng thời để trang được hiển thị nhanh hơn

Hình 1.1: Trụ sở Google tại Mountain View, California, USA

Sự phát triển của Google

Khi thị trường ban đầu của công ty là trên thị trường web, Google đã bắt đầu thử nghiệm ở một số thị trường khác, ví dụ như Phát thanh hoặc Xuất bản Ngày 17-1-2006, Google công bố rằng công ty đã mua lại công ty quảng cáo phát thanh dMarc, công ty đã sử dụng một hệ thống tự động, cho phép các công ty quảng cáo

Trang 9

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

trên radio Điều này sẽ giúp Google kết hợp 2 kênh quảng cáo truyền thông là Internet và Radio, với khả năng của Google, nhắm thẳng vào tâm lý khách hàng Google cũng bắt đầu thử nghiệm bán quảng cáo trên các kênh quảng cáo offline của công ty, như trên báo và tạp chí, với các quảng cáo được lựa chon trên Chicago-Sun Times Họ đã lấp được một chỗ trống không bán được trên tờ báo mà trước đấy thường được dùng vào việc quảng cáo nhà

Google được đưa vào danh sách 500 S&P index ngày 30 tháng 3 năm 2006, chiếm vị trí của Burlington Resources, một nhà sản xuất dầu chính ở Houston

Google nổi tiếng bởi dịch vụ Tìm kiếm của nó, nhân tố chính dẫn đến thành công của Google Vào tháng 12 năm 2006, Google là công cụ tìm kiếm được sử dụng nhiều nhất trên mạng chiếm 50,8% thị phần, vượt xa so với Yahoo (23,6 %)

và Window Live Search (8,4%) Google liên kết với hàng tỷ trang web, vì thế người

sử dụng có thể tìm kiếm thông tin mà họ muốn thông qua các từ khóa và các toán

tử Google cũng tận dụng công nghệ tìm kiếm của mình vào nhiều dịch vụ tìm kiếm khác, bao gồm Image Search (tìm kiếm ảnh), Google News, trang web so sánh giá

cả Froogle, cộng đồng tương tác Google Groups, Google Maps và còn nhiều nữa

Năm 2004, Google ra mắt dịch vụ email trên nền web, gọi là Gmail Gmail

hỗ trợ công nghệ lọc thư rác và khả năng sử dụng Công nghệ tìm kiếm của Google

để tìm kiếm thư Dịch vụ này tạo ra thu nhập bằng cách hiển thị quảng cáo từ dịch

vụ AdWords mà phù hợp với nội dung của email hiển thị trên màn hình

Đầu năm 2006, Google ra mắt dịch vụ Google Video, dịch vụ không chỉ cho phép người dùng tìm kiếm và xem miễn phí các video có sẵn mà còn cho người sử dụng hay các nhà phát hành khả năng phát hành nội dung mà họ muốn, kể cả các chương trình truyền hình trên CBS, NBA và các video ca nhạc Nhưng đến tháng 8 năm 2007 , Google đã đóng cửa trang web này trước sự cạnh tranh của đối thủ Youtube cũng thuộc sở hữu của công ty

Google cũng đã phát triển một số ứng dụng nhỏ gọn, bao gồm cả Google Earth, một chương trình tương tác sử dụng ảnh vệ tinh Ngoài ra công ty còn phát

Trang 10

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

triển nhiều gói phần mềm văn phòng trên ứng dụng web tên là Google Docs nhằm cạnh tranh thị phần với Microsoft Office

Nhiều ứng dụng khác nữa có tại Google Labs, một bộ sưu tập những phần mềm chưa hoàn chỉnh Chúng đang được thử nghiệm để có thể đưa ra sử dụng trong cộng đồng

Google đã đẩy mạnh quảng bá sản phẩm của họ bằng nhiều cách khác nhau

Ở London, Google Space được cài đặt tại sân bay Healthrow, ra mắt nhiều sản phẩm mới, bao gồm Gmail, Google Earth và Picasa Ngoài ra, một trang web tương

tự cũng được ra mắt cho sinh viên Mỹ dưới cái tên College Life, Powered by Google

Vào ngày 2 tháng 9 năm 2008, Google đã thông báo sự xuất hiện của Google Chrome, một trình duyệt mã nguồn mở Trình duyệt này được giới phân tích đánh giá sẽ là đối thủ cạnh tranh thị phần của Internet Explorer và Firefox

Ngày 5 tháng 1 năm 2010, Google cho ra mắt điện thoại Nexus One, sản phẩm cộng tác với hãng điện thoại HTC Nexus One chạy trên nền hệ điều hành Android 2.1 (cũng do hãng phát triển), được cho là đối thủ cạnh tranh ngang hàng với iPhone của Apple

Một số liên kết tới các trang web của Google

www.Google.com: trang chủ của Google, gôm liên kết tới cả các site khác của Google

www.Google.com/imghp: trang tìm kiếm hình ảnh của Google – Google Image www.Google.com/videohp: trang tìm kiếm video của Google – Google videos https://news.google.com/: trang tin tức của Google – Google News

https://mail.google.com/ :trình gửi và nhận mail của Google - Gmail

https://maps.google.com/ : trình bản đồ của Google – Google Map

https://drive.google.com/ : Hệ thống lưu trữ file Google Drive

Trang 11

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

www.youtube.com/ : trang web chia sẻ video của Google - Youtube

www.google.com/calendar/ : Trình lịch và ghi nhớ của Google – Google Calendar http://www.google.com/mobile/ : trình liên kết với thiết bị di động của Google https://wallet.google.com/ : hệ thống thanh toán trực tuyến của Google – Google Wallet

https://plus.google.com/ : mạng xã hội trực tuyến của Google – Google+

https://www.blogger.com/ : mạng blog của Google - Blogger

https://groups.google.com/ : trang nhóm của Google – Google Groups

http://translate.google.com/ : trình dịch tự động của Google – Google Translate

1.1.2 Giao diện các trang web của Google

Giao diện Web của Google (Google.com.vn)

Hình 1.2: Giao diện chính của Google (www.google.com.vn)

Như trong hình 1.2 ta thấy trang chủ của Google có một giao diện rất gọn gàng, đẹp mắt và thân thiện với người dùng Mặc dù trông có vẻ đơn giản, nhưng chúng ta có thể thực hiện được rất nhiều chức năng tìm kiếm ngay từ trang này Trên trang web chỉ có 1 dòng để ta có thể gõ, ta chỉ cần gõ câu hỏi hay thứ gì đó và nhấn Enter để tới trang kết quả tìm kiếm của nó

Trang 12

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Bảng 1.1: Chi tiết về giao diện của Google

Google+ Mạng xã hội Google+

Drive Hệ thống lưu trữ file Google Drive

Lịch Trình lịch và ghi nhớ của Google

Dịch Hệ thống dịch tự động của Google, hiện đã có thể dịch rất nhiều

ngôn ngữ trên thế giới Ảnh Hệ thống lưu trữ và chia sẻ ảnh của Google

Gmail Trình gửi và nhận email của Google

Đăng nhập Đăng nhập vào hệ thống của Google để sử dụng các ứng dụng khác

ngoài tìm kiếm và dịch Thanh nhập dữ

liệu tìm kiếm

Sử dụng để nhập dữ liệu ta muốn tìm kiếm, có thể sử dụng bàn phím ảo hoặc nhận dạng giọng nói thay thế cho việc gõ chữ

Tìm với Google Bắt đầu tìm kiếm, có thể nhấn Enter để trực tiếp tìm

Xem trang đầu

tiên tìm được

Xem ngay tất cả những trang có kết quả gần hoặc được đánh giá cao nhất

1.1.3 Tìm kiếm thông thường

Giao diện kết quả thông thường của Google (Google Search)

Trang 13

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 1.3: Google Search với từ khóa "Youtube"

Như trong hình 1.3 cho thấy tổng số gần đúng của các dữ liệu liên quan (ở đây, hơn 4 tỉ kết quả), bản thân truy vấn tìm kiếm (bao gồm cả các liên kết tới web hay các dữ liệu có chứa từ cần tìm), và thời gian truy vấn đã thực hiện

Khi ta gõ, Google sẽ đồng thời đưa ra các dự đoán về từ hay cụm từ liên quan, nếu muốn ta có thể chọn và Google sẽ tự động hoàn thành từ hay cụm từ đó (Google Instant)

Tốc độ của các truy vấn thường bị bỏ qua, nhưng nó khá ấn tượng Thậm chí truy vấn lớn đến hàng triệu lượt truy cập được trả lại trong vòng một phần nhỏ của một giây!

Đối với mỗi mục trên trang kết quả, Google sẽ liệt kê tên của trang web, một bản tóm tắt của trang web (thường là vài dòng đầu tiên của nội dung), URL của trang có xuất hiện, kích thước và ngày trang đã được thu thập thông tin mới nhất, một bản lưu trữ mới nhất về trang web do Google giữ lại, và một liên kết đến các trang web có nội dung tương tự Nếu trang kết quả được viết bằng một ngôn ngữ khác ngoài tiếng mẹ đẻ và Google hỗ trợ dịch từ ngôn ngữ đó vào của ta (thiết lập

Trang 14

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

trong màn hình ưu tiên), một liên kết mang tên Dịch sẽ xuất hiện, cho phép ta đọc một bản dịch của trang đó ở tiếng của ta.Phần bên phải mang thông tin chung về thương hiệu hay một tên tuổi nào đó (được lấy từ Wikipedia.com)

Ngoài ra, từ trang chính này ta có thể trực tiếp tìm kiếm ngay chỉ hình ảnh, video, sách, blog, thảo luận, ứng dụng hay bằng sáng chế

Nếu như ta nhấn vào phím Các công cụ tìm kiếm, Google sẽ đưa ra các tùy chọn khác nhau để tìm kiếm bao gồm: Quốc gia (toàn thế giới hay chỉ trên đất nước), Ngôn ngữ (toàn bộ ngôn ngữ hay chỉ ngôn ngữ địa phương), thời gian cập nhật, kết quả (chưa hay đã truy cập, ), vị trí tìm kiếm

Giao diện kết quả tìm kiếm hình ảnh của Google (Google Image Search)

Hình 1.4: Google Search hình ảnh với từ khóa "youtube"

Tính năng tìm kiếm hình ảnh của Google sẽ cố gắng xác định điều kiện tìm kiếm của ta trong tên tập tin hình ảnh, trong các chú thích hình ảnh, trong các văn bản xung quanh hình ảnh, và tại các địa điểm khác để trả lại một danh sách các hình ảnh phù hợp với tìm kiếm của ta Google tìm kiếm hình ảnh hoạt động giống hệt với các tìm kiếm web, với ngoại lệ của một số thuật ngữ tìm kiếm nâng cao Giao diện

Trang 15

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

cũng hơi khác nhau để nâng cao việc đưa nhiều hình ảnh vào 1 trang tìm kiếm, nút Tìm kiếm an toàn (Safe Search) cho phép ta lọc ra các hình ảnh có tính khiêu dâm,

ở dưới là các hình ảnh được thu nhỏ và kích cỡ + tên trang web sẽ hiện ra khi ta đưa chuột vào

Nút Các công cụ tìm kiếm : bao gồm việc lọc hình ảnh theo kích thước, màu, loại (chân dung, ảnh động, vẽ,…), thời gian cập nhật, và hiển thị kích thước trực tiếp hay không

Giao diện kết quả tìm kiếm video của Google (Google video search)

Hình 1.5 Google Search video với từ khóa "youtube"

Giao diện tìm kiếm video của Google như trong hình 1.5 tương tự giống như tìm kiếm web trừ việc dưới header link sẽ có 1 cutscreen thu nhỏ của video, cùng với nút Tìm kiếm an toàn(Safe Search) giông như tìm kiếm hình ảnh Nút Các công

cụ tìm kiếm: cho ta lọc video theo Web, thời lượng, thời gian cập nhật, chất lượng video, tất cả video hay video với phụ đề, nguồn (tất cả hay chỉ từ 1 số trang video

Cài đặt tìm kiếm của Google

Trang 16

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 1.6: Trang cài đặt tìm kiếm

Ta có thể truy cập trang cài đặt bằng cách nhấn phím bánh xe -> chọn cài đặt tìm kiếm (Option) Giao diện trang này như trong hình 1.6

Trên trang này ta có thể cài đặt các thông số cho Google tìm kiếm, thêm hay bớt dự đoán hay lưu lại lịch sử tìm kiếm, phần vị trí sẽ giúp Google tìm kiếm được các kết quả gần vị trí hơn với ta, cài đặt ngôn ngữ sẽ chuyển Google về ngôn ngữ phù hợp hơn với ta, nếu chỉnh ngôn ngữ ở phần này, tất cả kết quả sẽ chỉ đưa về ngôn ngữ mà ta tìm kiếm

Giao diện trang Google Dịch (Google translate)

Trang 17

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Phím hình loa là công cụ đọc tự động của Google, nó sẽ đọc đoạn văn bản, bên cạnh còn các phím Chọn tất cả, Xếp hạng bản dịch,… Phím hình lá cờ cùng ngôi sao là từ điển từ vựng của ta, ta có thể thêm bớt hay lưu trữ từ vựng của mình tại đây

1.1.4 Tìm kiếm nâng cao

Qui luật tìm kiếm của Google

Tìm kiếm sẽ không quan tâm việc chữ hoa hay chữ thường : tất cả ký tự

ta gõ sẽ được tìm kiếm mà không quan trọng nó là viết hoa hay viết thường, điều này đặc biệt quan trọng khi ta tìm kiếm những thứ như code vì chỉ một ký tự cũng

đã có thể ảnh hưởng tới toàn bộ bản code

Trang 18

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Các ký tự biểu tượng: Google sẽ chỉ coi chúng như 1 từ hay 1 cụm từ để

tìm kiếm VD: dấu sao(*), dấu hỏi(?)

Google sẽ bỏ qua một số từ ngữ cơ bản: một số từ ngữ sẽ không được tìm

kiếm để nâng cao hiệu quả của việc tìm kiếm VD: a, an, for,… Google cũng sẽ tìm kiếm các từ đồng nghĩa hay các từ gần đúng hơn với từ ta tìm, thậm chí có thể bỏ qua các ký tự đặc biệt hay dấu chấm câu, có thể bỏ qua việc này bằng cách thêm dấu ngoặc kép (“”) để bắt buộc Google tìm cả những từ và ký tự này

Google có thể đưa ra ngay lập tức một số thông tin cơ bản nếu ta gõ

VD: thời tiết hay phép tính

Ta có thể thay thế một từ bằng một ký tự đặc biệt, nếu làm như thế

Google sẽ tìm ra những kết quả tương đương với những từ đi kèm ký tự và tất cả các từ ghép lại được VD: “we the people of the united states in order to form a more perfect union establish justice” sẽ đưa ra ít kết quả hơn "we * people * * united states * order * form * more perfect * establish *" Lý do: Google coi các ký

tự đặc biệt chỉ là 1 ký tự, trong vd trên cụm đầu tiên có 17 ký tự, cụm thứ 2 lại được Google coi là có 9 ký tự (8 từ + dấu sao) do đó đưa ra nhiều kết quả hơn

Tìm kiếm cơ bản: hệ thống tìm kiếm của Google sẽ trả lại cho ta các kết quả

gần đúng hoặc các kết quả được xếp hạng cao hơn Cao hơn 1 chút là tìm kiếm theo cụm từ, nếu ta dùng ngoặc kép (“”) kết quả tìm kiếm sẽ chính xác vào đúng cụm từ

ta tìm theo đúng thứ tự đó

Sử dụng các toán tử, lệnh cơ bản và các ký tự đặc biệt để tìm kiếm

Nâng cao hơn so tìm kiếm từ cơ bản, tìm kiếm cụm từ vẫn là một hình thức

cơ bản của một truy vấn Google Để thực hiện truy vấn nâng cao, ta cần thiết phải hiểu các toán tử AND, OR, và NOT Để có thể sử dụng Google một cách hiệu quả nhất, chúng ta sẽ sử dụng các toán tử này cùng với các ký tự đặc biệt và tìm kiếm bằng cụm từ:

Trang 19

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

 Thường được sử dụng hầu hết các toán tử là AND Nó được sử dụng để bao gồm nhiều thứ trong một truy vấn Một số công cụ tìm kiếm đòi hỏi việc sử dụng các nhà điều hành này, nhưng Google không như thế Google sẽ tự động tìm kiếm tất cả những từ hay cụm từ ta đưa vào truy vấn VD: khi tìm “hot and spicy”, Google

sẽ bỏ qua từ “and” và tìm tất cả những web có 2 từ kia, trừ phi nó là 1 cụm từ

 Dấu cộng (+) sẽ tương đương với toán tử AND, nó sẽ bắt buộc Google tìm cả

từ mà ta muốn thêm nếu nó là 1 từ phổ biến, gần giống như khi ta đưa nó vào ngoặc kép (“”) VD: “hot +and spicy” sẽ đưa ra các kết quả bao gồm cả từ “and”

 Dấu trừ (-) sẽ tương đương với toán tử NOT, nó sẽ bắt buộc Google bỏ từ mà

ta không muốn nó tìm để giảm các tìm kiếm không cần thiết

o VD: “hot –spicy” sẽ đưa ra các kết quả chỉ gồm từ hot mà không có từ spicy

 Dấu vạch thẳng ( | ) tương đương với toán tử OR VD: password | passcode -> đưa ra các trang hoặc có từ password hay passcode hay cả 2

 Dấu sao (*) :Thay thế cụm từ chưa biết hay biểu tượng nào đó hoặc thay thế phép nhân trong toán học VD: 30*3 -> Google đưa ra kết quả = 90

 2 dấu chấm ( ) : Được sử dụng để tìm trong 1 phạm vi số học nào đó VD:

“camera $50 $200”

 Site:query ( tìm trên trang web): chỉ đưa ra kết quả trên trang web hoặc tên miền ta tìm VD: ”olympic site:nytimes.com” hay “olympic site:.gov

 Link:query : Tìm những trang có link dẫn tới 1 trang web nào đó VD:

“link:Google.com” sẽ đưa tới các trang có liên kết đến Google.com

 Related:query:Tìm những trang có liên kết ta đang tìm VD:”related:Google.com” sẽ đưa ra các trang có liên quan đến Google.com

 Sử dụng dấu cách (space) trong các toán tử hay lệnh trên sẽ được coi như sai lệnh và không được thực thi

Sử dụng trang “Google’s Advanced Search” để tìm kiếm

Trang 20

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 1.8: Trang tìm kiếm nâng cao (1)

Nếu như tìm kiếm của ta không đưa ra kết quả chính xác hay không biết sử dụng các toán tử và ký tự đặc biệt, vậy có thể sử dụng trang tìm kiếm nâng cao của Google, truy cập trang này bằng cách bấm nút bánh xe -> chọn tìm kiếm nâng cao (Google’s Advanced Search)

Trang này được sử dụng để tìm kiếm theo chính xác cụm từ ta muốn ở chính xác ngôn ngữ, định dang, vị trí, vv…

Hình 1.8 là phần cơ bản về từ và cụm từ, bên cạnh các khung cũng có những

ví dụ sẵn về việc tìm kiếm: tất cả các từ này, từ hoặc cụm từ chính xác này, bất kỳ

từ nào trong số này (OR), không từ nào trong số này (NOT), các số trong khoảng từ…(sử dụng cho các đơn vị đo)

Trang 21

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 1.9: Trang tìm kiếm nâng cao (2)

Hình 1.9 là phần nâng cao hơn của Tìm kiếm nâng cao, nó gồm có các thiết lập:

 Ngôn ngữ: tìm trang chính xác bằng ngôn ngữ ta chọn VD: chọn tiếng việt

sẽ chỉ đưa ra các kết quả bằng tiếng việt

 Vùng: sẽ đưa ra trang dược đăng tại khu vực hay đất nước ta muốn tìm kiếm VD: chọn Việt Nam sẽ chỉ đưa ra các trang được đăng tại Việt Nam

 Cập nhật lần cuối: Thời gian mà trang web được cập nhật

 Trang web hoặc tên miền: Chỉ tìm trong trang web hay tên miền mà ta muốn tìm VD: gõ Wikipedia.com thì sẽ chỉ đưa ra các kết quả trong trang web Wikipedia.com

 Các thuật ngữ tìm kiếm: cho phép ta tìm chính xác cụm từ tại một vị trí nào

đó của trang (tiêu đề, văn bản, URL, hay các liên kết tới trang)

 Tìm kiếm an toàn: Cho phép tìm toàn bộ kết quả hoặc lọc đi các kết quả khiêu dâm

 Loại tệp: Được sử dụng để tìm kiếm một tập tin theo định dạng ta chọn (các dạng văn bản, flash, power point, excel, vv )

 Quyền sử dụng: Tìm các trang bao gồm các giấy phép có thể sử dụng, xuất bản hay chia sẻ hay không

Trang 22

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

1.2 Tầm quan trọng của hệ thống tìm kiếm Google

Cho đến nay Google đã thực sự quan trọng đối với tất cả mọi người kết nối Internet Đã có nhiều công cụ tìm kiếm được phát triển nhưng không phải công cụ nào cũng thành công và được người dùng biết đến Nó còn phụ thuộc vào thuật toán

mà các công cụ sử dụng để đưa ra kết quả tối ưu nhất cho người dùng, hay nói đúng hơn nó phải đọc được những ý nghĩ và yêu cầu của người dùng khi nhập từ khóa để đưa ra các kết quả gần với suy nghĩ của họ nhất

Đối với người sử dụng thì hẳn ai cũng hiểu được tầm quan trọng của Google, bởi họ biết khi nào mình cần dùng đến nó Bây giờ hầu như bất kì những gì ta không biết ta đều lên google tra Trên đó cho ta những câu trả lời từ bài viết của các chuyên gia, những người hiểu biết về vấn đề đó Ta có thể hỏi về con đường mà mình cần đi sẽ có phần mềm chỉ đường cho ta, hay ai đó đã đi và viết lại ta có thể hỏi mình địa điểm mà mình cần mua một món đồ, hay những thắc mắc về thế giới xung quanh mà đã được con người khám phá ra, và đã được giải đáp ở một nơi nào

đó mà ta chưa biết thì câu hỏi sẽ được giải đáp khi ta gõ từ khóa tìm kiếm Không phải tất cả các câu trả lời đều được giải đáp nhưng đa số đều có câu trả lời Như vậy Google không chỉ là một công cụ đơn thuần, hiểu theo một nghĩa khác thì nó chính

là nơi kết nối tri thức nhân loại

Đối với các nhà kinh doanh, nhà phát triển thì Google thực sự cần thiết nếu

họ muốn người dùng biết đến các sản phẩm của mình, công ty mình, các dự án… thông qua các trang web của họ Nhờ vào chiến lược SEO lợi dụng các đặc điểm của thuật toán tìm kiếm của Google người dùng sẽ đi đến những trang web của họ khi nó được hiển thị trong kết quả tìm kiếm của google Điều này cũng quan trọng không kém gì việc quảng cáo trên truyền hình thậm chí nó còn được mở rộng hơn vì

từ các website có nhiều các chức năng đa dạng hơn như bán hang trực tuyến, tham khảo giá cả, giới thiệu tất các những gì mà họ muốn người dùng biết đến Đó là lí

do mà các công ty, tổ chức, các nhân đầu tư một lượng tiền không nhỏ cho lĩnh vực SEO

Trang 23

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

1.3 Phương pháp khai thác thông tin qua hệ thống tìm kiếm Google

Google chạy trên một mạng lưới phân phối của hàng ngàn máy tính giá rẻ và do

đó có thể thực hiện xử lý song song rất nhanh Xử lý song song là một phương pháp tính toán trong đó có nhiều phép toán có thể được thực hiện đồng thời, đẩy nhanh tiến độ xử lý dữ liệu Hệ thống Google có ba phần riêng biệt:

 Googlebot, một trình thu thập web, bộ phận tìm và lấy các trang web

 Indexer (các chỉ mục) nơi phân loại mỗi từ trên mỗi trang và lưu trữ các chỉ

số kết quả của các từ trong cơ sở dữ liệu khổng lồ

 Bộ vi xử lý truy vấn, so sánh truy vấn tìm kiếm của ta với các chỉ số và đưa

ra các tài liệu phù hợp nhất yêu cầu tìm kiếm của ta

1.3.1 Googlebot , máy thu thập trang web của Google.

Googlebot là robot thu thập trang web của Google, có nhiệm vụ tìm và lấy các trang trên web và đưa chúng cho các chỉ mục của Google.Nói một cách dễ hiểu thì Googlebot như một con nhện nhỏ đang vội vàng di chuyển trên mạng nhện của mình, nhưng trong thực tế Googlebot không đi qua bất kì một trang web nào.Chức năng giống như trình duyệt web của ta,nó gửi một yêu cầu đến một máy chủ web để truy cập một trang web, tiếp đó nó download toàn bộ trang đó,tiếp đến nó gửi trang web đó đến bộ phận Indexer của Google

Googlebot bao gồm nhiều máy tính cùng yêu cầu và lấy các trang web nhanh hơn rất nhiều so với việc ta truy cập tới các trang đó Trong thực tế, Googlebot có thể yêu cầutới hàng ngàn trang khác nhau cùng một lúc Để tránh quá tải các máy chủ, hoặc các yêu cầu ồ ạt từ người sử dụng, Googlebot cố tình làm cho các yêu cầu của mỗi máy chủ web cá nhân chậm hơn so với nó có khả năng làm

Googlebot tìm các trang web theo hai cách: thông qua hình thức thêm URL(add URL form) , www.google.com / addurl.html , và thông qua việc tìm kiếm các liên kết bằng cách thu thập các trang web

Trang 24

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 1.10: Trang thêm URL

Thật không may, kẻ gửi thư rác đã tìm ra cách để tạo ra các con bot tự động phá hủy add URL form với hàng triệu các URL trỏ đến đường truyền thương mại Google từ chối các URL gửi thông qua add URL form của nó mà nó nghi ngờ đang cố gắng để đánh lừa người dùng bằng cách sử dụng chiến thuật như văn bản

ẩn hoặc liên kết trên một trang, nhồi nhét vào một trang với những từ không thích hợpvvà cả kĩ thuật che đậy(hay còn gọi là mồi câu và chuyển đổi), sử dụng chuyển hướng lén lút , tạo ra cửa, tên miền, hoặc các tên miền phụ với nội dung tương tự, gửi các truy vấn tự động tới Google, và liên kết với các thành phần tương tự.Vì vậy, bây giờ add URL form thường xuyên bị kiểm tra:bằng cách hệ thống sẽ hiển thị một

số chữ nguệch ngoạc được thiết kế để tránh sự tự động, nó sẽ yêu cầu ta nhập các ký

tự mà ta nhìn thấy – tương tự như một bài kiểm tra mắt để ngăn chặn spam bots

Khi Googlebot lấy một trang, nó tiêu huỷ tất cả các liên kết xuất hiện trên trang và thêm chúng vào một hàng đợi cho thu thập tiếp theo Googlebot có xu hướng gặp phải ít thư rác bởi vì hầu hết các nhà thiết kế web chỉ có liên kết với những trang web mà họ tin là các trang web chất lượng cao.Bằng cách thu được các liên kết từ mỗi trang nó gặp, Googlebot có thể nhanh chóng xây dựng một danh

Trang 25

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

sách các liên kết mà có thể bao pgủ diện rộng tới các trang web Kỹ thuật này, được gọi là thu thập chiều sâu, nó cho phép Googlebot để thăm dò sâu bên trong các trang web cá nhân Do quy có mô lớn,kĩ thuật thu thập sâu có thể tiếp cận hầu hết các trang trong trang web Bởi vì các trang web rất lớn nên khi thu thập thông tin từ chúng có thể mất một thời gian dài, vì vậy một số trang chỉ được thu thập mỗi tháng một lần

Mặc dù chức năng của nó rất đơn giản, Googlebot phải được lập trình để xử

lý một số thách thức Đầu tiên, kể từ khi Googlebot gửi ra đồng thời yêu cầu cho hàng ngàn trang, hàng đợi của URL phải liên tục kiểm tra và so sánh với các URL

đã có trong chỉ mục của Google Bản sao trong hàng đợi phải được loại bỏ để ngăn chặn Googlebot lấy một trang một 2 lần Googlebot phải xác định mức độ truy cập lại trang đó có thường xuyên không? Thật sự lãng phí nguồn lực để tái lập lại chỉ mục một trang đã có Mặt khác, Google sẽ thay đổi chỉ số của từng page khi page

đó có sự thay đổi để cung cấp kết quả cập nhật nhất

Để giữ các chỉ số hiện tại, Google liên tục cập nhật khi trang web có sự thay đổi với tốc độ tỷ lệ thuận với mức độ thay đổi của trang.Hệ thống thu thập giữ một

chỉ số hiện tại gọi là fresh crawl Các trang báo chí được tải về hàng ngày, các

trang giá cả cổ phiếu được tải xuống thường xuyên hơn nhiều Tất nhiên, fresh crawl mang về ít các trang hơn so với thu thập dữ liệu sâu Sự kết hợp của hai loại thu thập cho phép Google sử dụng hiệu quả các nguồn lực của mình và giữ cho chỉ

số hiện tại của nó 1 cách hợp lý

1.3.2 Indexer của Google

Googlebot cung cấp cho các chỉ mục đầy đủ của các dữ liệu trong các trang

mà nó tìm thấy Những trang này được lưu trữ trong cơ sở dữ liệu chỉ mục của Google Chỉ số này được sắp xếp theo bảng chữ cái của thuật ngữ tìm kiếm, với mỗi chỉ mục lưu trữ một danh sách các tài liệu nơi mà các thuật ngữ xuất hiện và vị trí trong văn bản mà nó xảy ra Cấu trúc dữ liệu này cho phép truy cập nhanh đến các tài liệu có chứa thuật ngữ truy vấn

Trang 26

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Để cải thiện hiệu suất tìm kiếm, Google sẽ bỏ qua (không chỉ) từ thông

thường gọi là stoped words (ví dụ the, is, on, or, of, why,how, cũng như một số con

số và chữ cái đơn).Stoped word xuất hiện nhiều mà không dùng nó cũng không làm ảnh hưởng đến kết quả tìm kiếm,nên stoped word có thể loại bỏ được Indexer cũng

bỏ qua một số dấu chấm câu và dấu cách, cũng như chuyển đổi tất cả các chữ cái thành chữ cái thường, để tăng hiệu suất làm việc của Google

1.3.3.Bộ xử lý truy vấn của Google

Bộ xử lý truy vấn có một số bộ phận, bao gồm giao diện người dùng (hộp tìm kiếm), "cơ chế" nơi đánh giá truy vấn và so sánh chúng với các tài liệu có liên quan,

và kết quả định dạng

PageRank là một hệ thống của Google để xếp hạng các trang web Một trang với hệ PageRank cao hơn được coi là quan trọng hơn và có khả năng được đưa ra ở trên trong kết quả tìm kiếm so với một PageRank thấp hơn

Google xem xét hơn một trăm các yếu tố trong việc tính toán một PageRank và xác định những tài liệu phù hợp nhất với một truy vấn,trong đó bao gồm các yếu tố trang web đó có phổ biến hay không?, vị trí và kích thước của các từ tìm kiếm trong trang, và sự tương ứng của các từ tìm kiếm với các trang khác

Google cũng áp dụng kỹ thuật để nâng cao hiệu quả tự động tìm kiếm của nó bằng cách tìm hiểu các mối quan hệ và các hiệp hội trong các dữ liệu được lưu trữ Ví dụ hệ thống sửa lỗi chính tả sử dụng các kỹ thuật như vậy để tìm ra khả năng thay thế cách viết Google giữ chặt chẽ các công thức dùng để tính toán phù hợp, Google đang tinh chỉnh để nâng cao chất lượng và hiệu suất, và để ngăn chặn các kĩ thuật mới nhất của các spammer

Lập chỉ mục đầy đủ các văn bản của các trang web cho phép Google không chỉ đơn giản là phù hợp với điều kiện tìm kiếm mà còn nhiều hơn thế Google ưu tiên hơn cho các trang có yêu cầu tìm kiếm tương tự nhau và theo thứ tự như truy vấn Google cũng có thể làm việc với các cụm từ và các câu Kể từ khi Google lập

Trang 27

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

chỉ số mã HTML ngoài các văn bản trên trang web, người dùng có thể giới hạn tìm kiếm dựa trên việc sử dụng các thuật ngữ tìm kiếm, ví dụ như intitle, inurl,link…

CHƯƠNG II: MỘT SỐ KỸ THUẬT KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE VÀ

CÁC PHƯƠNG PHÁP BẢO VỆ THÔNG TIN

2.1 Các cú pháp tìm kiếm nâng cao trong Google

Ngoài các kỹ thuật tìm kiếm cơ bản ta đã tìm hiểu trong chương trước,

Google cũng cung cấp các thuật ngữ đặc biệt được gọi là advanced operator

(phương pháp khai thác tìm kiếm nâng cao,tiên tiến)để giúp ta thực hiện các truy vấn nâng cao Cách khai thác tiên tiến này nếu sử dụng đúng cách có thể giúp ta có được chính xác các thông tin ta đang tìm kiếm mà không cần tốn quá nhiều thời

gian suy nghĩ sau khi trang kết quả tìm kiếm hiển thi Khi các advanced operator

không được cung cấp trong một truy vấn thì Google sẽ xác định xem các thuật ngữ tìm kiếm đó có trong những trang Web nào , bao gồm tiêu đề, nội dung liên quan, Uniform Resource Locator (URL), hoặc những điều thứ tương tự như thế Trong

phần này chúng ta sẽ tìm hiểu về advanced operator:

Trang 28

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

2.1.1 Intitle and Allintitle: Tìm kiếm với tiêu đề của trang

Theo quan điểm của một nhà kĩ thuật thì tiêu đề của một trang được miêu tả như một dạng văn bản dưới dạng html Tiêu đề được đưa ra trên đầu của mỗi trình

duyệt ,và được chỉ ra trong hình 2.1 Theo Google, intitle sẽ tìm ra thuật ngữ trong

tiêu đề của mỗi thông điệp được đề cập

Hình 2.1: Tiêu đề của trang web

Cú pháp “intitle:” giúp Google giới hạn kết quả t́ìm kiếm về những trang có chứa

từ đó trong tiêu đề Ví dụ, xét truy vấn intitle:“index of” “backup files” trong hình

2.2 ta có:

Trang 29

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 2.2: Cú pháp intitle

Google sẽ trả cho ta kết quả là những trang có chứa index of trong tiêu đề và backup files ở đâu đó trong trang

Tương tự, nếu ta muốn truy vấn nhiều hơn một từ trong tiêu đề của trang th́ì

ta có thể dùng “allintitle:” thay cho “intitle” để có kết quả là những trang có chứa

tất cả những từ đó trong tiêu đề Ví dụ như dùng truy vấn allintitle:”indexof

“”backup files” cũng giống như việc ta sử dụng truy vấn intitle:”indexof” intitle:” backupfiles” Hình 2.3 cho ta thấy sự khác biết khi sử dụng Alintitle

Trang 30

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 2.3: So sánh kết quả allintitle

2.1.2.Inurl và Allinurl: Tìm kiếm từ khóa trong URL

Cú pháp “inurl:” giới hạn kết quả t́m kiếm về những địa chỉ URL có chứa từ khóa t́ìm kiếm Xét truy vấn inurl: admin index trong hình 2.4

Hình 2.4: Tìm kiếm với inurl

Trong ví dụ trên thì google sẽ đưa ra kết quả là những trang có từ admin trong URL và từ index sẽ xuất hiện ở đâu đó trong trang Tương tự, nếu ta muốn truy vấn nhiều hơn một từ trong URL th́ì ta có thể dùng “allinurl:” thay cho

“inurl” để được kết quả là những URL chứa tất cả những từ khóa t́ìm kiếm Ví dụ:

xét truy vấn allinurl:admin index trong hình 2.5

Trang 31

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 2.5: So sánh kết quả với allinurl

Trong ví dụ này thì google sẽ trả ta kết quả là những trang có từ admin index trong

URL

2.1.3 Filetype: Tìm kiếm các file với định dạng cho trước

Cú pháp “filetype:” giới hạn Google chỉ t́ìm kiếm những files trên internet có

phần mở rộng riêng biệt (doc, pdf hay ppt v.v ) File mở rộng là một phần của URL Có nhiều loại file mở rộng khác nhau bảng 1cho ta thấy các file chính được

hệ thống tìm kiếm google đưa ra theo link

www.google.com/help/faq_filetypes.html#what

Trang 32

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 2.6: Một số loại tập tin phổ biến và phần mở rộng trong hệ thống tìm kiếm Google

Hình 2.6 không liệt kê được tất cả các loại file, theo trang http://filext.org thì có đến hơn một ngàn loại file mở rộng Hình 2.7 sẽ cho ta thấy top 25 file phổ biến nhất được tìm trên web, chúng được xếp sắp xếp thứ tự thông qua số lượng hit của mỗi loại file

Hình 2.7: 25 loại tập tin phổ biến nhất

Trang 33

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

2.1.4 Allintext: Tìm kiếm một chuỗi các từ trong một trang

Cú pháp “intext:” t́ìm kiếm các từ trong một website riêng biệt Nó phớt lờ các liên

kết hoặc URL và tiêu đề của trang

Ví dụ: “intext:exploits” (không có ngoặc kép) sẽ cho kết quả là những liên kết đến

những trang web có từ khóa t́m kiếm là "exploits" trong các trang của nó

2.1.5 Site: Giới hạn tìm kiếm trong một trang cụ thể

Cú pháp “site:” giới hạn Google chỉ truy vấn những từ khóa xác định trong một site hoặc tên miền riêng biệt Ví dụ xét truy vấn site:blackhat.com trong hình 2.8 để rõ

hơn về chức năng của cú pháp này

Hình 2.8: Cú pháp Site

Hãy chú ý hơn đến 2 kết quả đầu tiên là www.blackhat.com và

www.blackhat.com/latestintel Cả 2 server đều kết thúc với đuôi blackhat.com và

đây là kết quả hợp lệ cho truy vấn của chúng ta

Giống như các truy vấn nâng cao khác, site còn có thể sử dụng trong nhiều trường hợp thú vị khác, xét truy vấn site:f trong hình 2.9 để thấy điều này

Trang 34

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

Hình 2.9: Cú pháp nâng cao với Site

Trông rất gần với kết quả của truy vấn và ta có thể nhận thấy rằng kết quả đầu tiên cho 1 URL trông có chút gì đó rất kì quặc Thẳng thắn mà nói thì kết quả này là rất

kì cục.Truy vấn site:f không bao giờ trả cho ta 1 kết quả hợp lệ bởi vì không tồn tại miền nào tên là f

2.1.6 Link: Tìm kiếm các liên kết tới một trang

Cú pháp “link:” sẽ liệt kê những trang web mà có các liên kết đến đến những trang

Trang 35

Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google

web chỉ định Ví dụ : xét truy vấn link:www.defcon.org trong hình 2.10:

Hình 2.10: Cú pháp Link

chuỗi “link: www.defcon.org” sẽ liệt kê những trang web có liên kết trỏ đến trang chủ defcon Chú ý không có khoảng trống giữa "link:" và URL của trang Web

2.1.7 Cache: Cho thấy phiên bản của một trang web

Truy vấn “cache:” sẽ cho kết quả là phiên bản của trang Web mà mà Google đă lưu lại Ví dụ:“cache:www.hackingspirits.com” sẽ cho ra trang đă lưu lại bởi Google tại

một thời điểm nào đó dưới dạng hình ảnh Nhớ rằng không có khoảng trống giữa

"cache:" và URL của trang web

Nếu bao gồm những từ khác trong truy vấn, Google sẽ điểm sáng những từ này trong văn bản(nếu có) đă được lưu lại

Ví dụ: “cache:www.hackingspirits.com guest” sẽ cho ra văn bản đă được lưu lại có

từ "guest" được điểm sáng

2.1.8 Info: Đưa ra thông tin tổng quát về hệ thống Google

Cú pháp [info:] không chỉ cho ta những thông tin tổng quát về hệ thống tìm

kiếm Google mà còn cung cấp cho ta những link liên kết đến hệ thống tìm kiếm của

Ngày đăng: 19/09/2020, 21:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w