Bài tập lớn môn an toàn mạng (47)

Waybackurls cũng là một tooldựa trên Golang được sử dụng để thu thập thông tin tên miền trên sdin,tìm nạp các URL đã biết từ Wayback Machines, và xuất chúng ra stdout.. Wayback Machine l

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN

HỌC PHẦN: AN TOÀN MẠNG

Bài báo cáo:

Tìm hiểu về công cụ waybackurls

Giảng viên hướng dẫn: TS Đặng Minh Tuấn Sinh viên thực hiện: Nhóm 02

Trần Thái Hùng B18DCAT104

Hà Nội, ngày 22 tháng 12 năm 2021

Trang 2

Mục Lục

Chương 1: Giới thiệu, lịch sử hình thành 3

1.1 Giới thiệu sơ lược về Waybackurls 31.2 Internet Archive là gì? 31.3 Wayback Machine là gì? 4Chương 2: Hướng dẫn cài đặt và sử dụng 6

Chương 4: So sánh, Đánh giá và Kết luận 27

4.1 So sánh với các tool Crawl tự động khác 27

4.2 Đánh giá, kết luận về waybackurls 28

Trang 3

LỜI MỞ ĐẦU

Thu thập thông tin là bước đầu tiên và nền tảng cho sự thành công củakiểm thử thâm nhập Càng có nhiều thông tin hữu ích về mục tiêu, thìcàng có thể tìm thấy nhiều lỗ hổng trong mục tiêu và tìm ra các vấn đềnghiêm trọng hơn trong mục tiêu bằng cách khai thác chúng

Trong kiểm thử xâm nhập web, Web crawling trong kiểm thử xâm nhậpweb là một khía cạnh quan trọng vì đây là quá trình lập chỉ mục dữ liệutrên các trang web bằng cách sử dụng các scripts tự động hoặc chươngtrình crawling Các chương trình thu thập thông tin phổ biến như: webcrawler, spider, spider bot, and a crawler Waybackurls cũng là một tooldựa trên Golang được sử dụng để thu thập thông tin tên miền trên sdin,tìm nạp các URL đã biết từ Wayback Machines, và xuất chúng ra stdout

Với bài tiểu luận tìm hiểu về Waybackurls với các đề tài “ Mở đầu Giớithiệu, lịch sử hình thành Hướng dẫn cài đặt, sử dụng Các bài demo

So sánh, đánh giá, kết luận” chúng ta sẽ cùng tìm hiểu về cách thứchoạt động của tool này

Trang 4

Chương 1: Giới thiệu, lịch sử hình thành

1.1 Giới thiệu sơ lược về Waybackurls:

- Đây là tool được viết dựa trên golang bởi tonomnom

- Mô tả ngắn gọn công việc của nó theo tác giả: tìm các urls có sẵntrong Wayback Machine cho *.domain

Có 2 khái niệm ta cần tìm hiểu ở đây là: Internet Archive và WaybackMachine

1.2 Internet Archive là gì?

- là một thư viện số phi lợi nhuận có trụ sở San Francisco với sứmệnh lưu trữ nội dung Web trên Internet

- Thư viện cho phép tất cả mọi người truy cập tự do nội dung tài liệu

số, bao gồm các trang web, phần mềm ứng dụng/trò chơi, âmthanh/hình ảnh/video, và gần 3 triệu sách công cộng Tính đếntháng 05 năm 2014, thư viện có dữ liệu đạt 15 Petabyte

- Internet Archive bắt đầu vào năm 1996 bằng cách lưu trữ chínhInternet, một phương tiện mới bắt đầu được sử dụng Giống nhưbáo chí, nội dung được xuất bản trên web là phù du - nhưng

không giống như báo chí, không ai lưu nó Ngày nay, Internet

Archive có hơn 25 năm lịch sử web có thể truy cập thông qua

Wayback Machine

- Sứ mệnh tự xưng của nó là "bảo tồn các hiện vật văn hóa của xã

Trang 5

1.3 Wayback Machine là gì?

- WayBack Machine là một dịch vụ được cung cấp bởi Internet

Archive cho phép mọi người truy cập các phiên bản đã lưu trữ củacác trang web

- WayBack Machine được coi là thiết bị hiển thị Web vào bất kỳngày cụ thể nào, cung cấp cho người dùng một cửa sổ hiển thịtrang web trong quá khứ

- Máy WayBack cho phép bất kỳ ai nhập URL, chọn phạm vi ngày

và bắt đầu tìm phiên bản đã lưu trữ của trang web mong muốn

- Ví dụ: kể từ tháng năm 2013, một tìm kiếm đơn giản

“www.yahoo.com” cho thấy rằng trang web đó đã được thu thậpthông tin 38.583 lần, bắt đầu từ tháng 10 năm 1996

- Cách mà WayBack Machine có thể biên dịch và lưu trữ thông tinnày khá phức tạp Tuy nhiên, quá trình của nó có thể đơn giản hóaphần nào Internet Archive đã hợp tác với Alexa Internet, Inc., đãthiết kế một chỉ mục ba chiều cho phép duyệt các tài liệu web.Alexa Internet, một Công ty thuộc Amazon, “đã tạo ra một trongnhững công ty thu thập dữ liệu Web lớn nhất, và đã phát triển cơ

sở hạ tầng để xử lý và phục vụ một lượng lớn dữ liệu ” Kể từ đầunăm 1996, Alexa đã thu thập dữ liệu trên web và dịch vụ cho cácnhà nghiên cứu, học giả trong tương lai và các bên quan tâm

khác, Alexa Internet đóng góp một bản sao của mỗi lần thu thập

dữ liệu web lên Internet Archive

- Trình thu thập thông tin web là các chương trình phần mềm “lướtWeb và tự động lưu trữ các bản sao của các tệp trang web, bảoquản các tệp này khi chúng tồn tại tại thời điểm thu thập.” Một mô

Trang 6

- Alexa Internet đã phát triển một trình thu thập thông tin web nhưvậy và tập hợp khoảng 1,6 terabyte (1.600 gigabyte) nội dung webmỗi ngày Mỗi ảnh chụp nhanh của web mất khoảng hai tháng đểhoàn thành; Tuy nhiên, kể từ 1996, Internet Alexa đã thu thập

được ảnh của 4,5 tỷ web pages từ hơn 16 triệu websites

- Có nhiều nguồn khác cũng lưu trữ trang web, bao gồm Gigablast,Google Bot của Google, v.v Tuy nhiên, Internet không ngừng pháttriển và một số nguồn này đã ngừng hoạt động hoặc thay thế bằngcác phiên bản mới hơn Ví dụ, Yahoo! công bố vào tháng 2 năm

2009 rằng dịch vụ lưu trữ của nó, Yahoo! MyWeb, sẽ ngừng hoạtđộng và được thay thế bằng Yahoo! Bookmarks và một dịch vụkhác, là Delicious

- Trái ngược với tính chất nhất thời của một số trang web lưu trữkhác, Internet Archive’s WayBack Machine lưu trữ hình ảnh côngchúng sử dụng Nhiều dịch vụ khác đã được bắt đầu sau năm

1996 và không giữ lại nhiều bản sao đã lưu trữ như Wayback

Machine

Ví dụ, Gigablast được thành lập vào năm 2000 và dường như chỉgiữ lại một bản sao được lưu trong bộ nhớ cache của mỗi trangweb

Một tìm kiếm cho Yahoo! Được lưu vào bộ nhớ đệm chỉ có kết quả

là ảnh chụp màn hình từ ngày 6 tháng 11 năm 2011(rất cũ)

- Đôi khi các dịch vụ lưu trữ web phụ thuộc vào chính WaybackMachine vì có nhiều ảnh chụp màn hình hơn

Trang 7

Chương 2: Hướng dẫn cài đặt và sử dụng

2.1 Cài đặt trên máy Linux:

Bước 1: Cài đặt golang:

Kiểm tra xem golang đã được cài đặt trên máy: go version

nếu chưa có thì cài đặt: apt install golang

Bước 2: Tải tool waybackurls thông qua tiện ích Go sử dụng câu lệnh:

sudo go get github.com/tomnomnom/waybackurls

Trang 8

Bước 3: Kiểm tra menu help để hiểu rõ hơn về tool và các tùy chọn:

Trang 10

Ví dụ 2: Sử dụng thẻ -no-subs

echo "geeksforgeeks.org" | waybackurls -no-subs

Trong ví dụ này, mục tiêu là geeksforgeeks.org và ta đã cung cấp thẻ-no-subs, trong thẻ này, các URL sẽ chỉ được tìm nạp thông qua tênmiền chính Không có miền phụ nào được xem xét khi thu thập dữ liệuURL

Trang 11

Trong ảnh chụp màn hình bên dưới, có thể thấy công cụ waybackurls đãtìm nạp một số URL nhưng điều quan trọng là nó chỉ tìm nạp các chỉ liênquan đến tên miền chính, không có tên miền phụ nào được xem xéttrong khi thu thập thông tin.

Trang 12

Ví dụ 3: Sử dụng thẻ -date

echo "geeksforgeeks.org" | waybackurls -dates

Sử dụng thẻ -dates để lấy ngày trong cột đầu tiên Nó hiển thị ngày URL

đó được thêm vào Wayback Machine

Trang 14

Ví dụ 4: Sử dụng thẻ -get-version

echo "geeksforgeeks.org" | waybackurls -get-versions

Ta có thể thấy rằng cùng với các URL được thu thập thông tin của

geeksforgeeks.org, có một số URL bổ sung chỉ định các nguồn mà cácURL của geeksforgeeks.org được thu thập thông tin từ đó Ví dụ

https://www.geeksforgeeks.org/ URL được tìm nạp bởi

https://web.archive.org/web/20211222165435if_ Điều này có thể giúp tatruy cập trực tiếp vào URL nguồn có thể khám phá thêm về URL được

Trang 16

Chương 3: Bài Lab và Kịch bản Demo

- Tiếp theo sẽ cho danh sách các live sub domain chạy qua

waybackurls lưu vào file allurl.txt

Trang 17

Sử dụng hprobe lọc live sub domain:

Trang 18

Command hprobe được định nghĩa trong file ~/.profile sử dụng httprobe.

Sử dụng waybackurls đối với các live sub domain:

Trang 19

Lab 2:

Mục tiêu: testasp.vulnweb.com

Các tools sử dụng: waybackurls, gf-pattern, kxss

Kịch bản demo:

- Sử dụng waybackurls đối với testasp.vulnweb.com

- Sau đó đưa kết quả qua gf-pattern với pattern là xss để lọc ranhững urls có khả năng dính lỗi xss

- Sau đó sử dụng kxss để test lỗi xss và tìm chính xác các urls dínhlỗi

Sử dụng waybackurls + gf pattern:

Trang 20

Kết quả:

Trang 21

Kết quả:

Trang 22

Lab 3:

Mục tiêu: testasp.vulweb.com

Các tools sử dụng: waybackurls, gf-pattern, sqlmap

Kịch bản demo:

- Sử dụng waybackurls đối với testasp.vulnweb.com

- Sau đó đưa kết quả qua gf-pattern với pattern là sqli để lọc ranhững urls có khả năng dính lỗi sql injection

- Tiếp đó sử dụng sqlmap với các urls tìm được

Sử dụng waybackurls với gf-pattern:

Trang 23

Kết quả:

Trang 24

Kết quả:

Trang 25

Kết quả:

Trang 26

Lab 4:

Mục tiêu: lanhongco.com

Các tools sử dụng: waybackurls

Đối khi sử dụng mỗi waybackurls đã đem lại những thông tin có ích

Sử dụng waybackurls với mục tiêu ta tìm thấy trang đăng nhập của

admin bao gồm tài khoản và mật khẩu

Trang 28

Chương 4: So sánh, Đánh giá và Kết luận

4.1 So sánh với các tool Crawl tự động khác ( Burp Spider, dirbuster,sublist3r, )

4.1.1 Ưu Điểm:

- Điểm khác biệt lớn nhất giữa waybackurls và các tools kể trên làwaybackurls thuộc loại Passive Reconnaissance Các tools kiathuộc Active Reconnaissance Do đó sự an toàn và ẩn danh caohơn

- Wayback url gửi yêu cầu đến Wayback Machine và lấy về urls tốc

độ khá nhanh và chứa một lượng lớn urls

- Các tools crawl khác thông thường sẽ gửi rất nhiều yêu cầu trựctiếp đến website dựa trên một list tên đường dẫn theo kiểu

brute-force sẽ gây ra sự chú ý của hệ thống log và dễ bị phát hiện.List đường dẫn thường chứa nhiều đường dẫn không tồn tại dẫnđến kết quả tìm kiếm bị thu hẹp Và như tất cả các kiểu brute-forcethì với một list lớn thì tốc độ sẽ rất chậm

- waybackurls không chỉ lấy những URLs của webiste ở trạng tháihiện tại mà nó còn chứa những URLs ở trong quá khứ Đó có thể

là những file thông tin nhạy cảm của trang web, có thể là các

đường link chứa thông tin cá nhân, tokenId của api

4.1.2 Nhược Điểm:

Trang 29

4.2 Đánh giá, kết luận về waybackurls:

- Reconnaissance là bước đầu tiên mà hacker sẽ thực hiện, nơi họ

cố gắng thu thập càng nhiều thông tin về mục tiêu càng tốt Thôngthường, hacker sẽ bắt đầu bằng cách do thám thụ động, khôngliên quan đến tương tác trực tiếp, khó phát hiện hơn và không liênquan đến việc sử dụng các công cụ động chạm vào trang web,mạng hoặc máy tính của mục tiêu

- Internet Archive chứa gần như toàn bộ các url, ảnh chụp màn hìnhthuộc về một trang web waybackurls là một tool passive

reconnaissance hiệu quả khi nó tận dụng điều này để mang lại cáinhìn chi tiết về cấu trúc file, thư mục của mục tiêu

- Thông tin thì khá nhiều nhưng sẽ trở nên vô dụng nếu ta khôngtận dụng được nó Bởi số lượng lớn URLs mà waybackurls lấy về,chúng ta cần có kĩ năng để phân tích thông tin hoặc kiến thức vềcác tools kết hợp lại với nhau để bóc tách thông tin

Trang 30

Tài liệu tham khảo

Định dạng
Số trang	30
Dung lượng	4,15 MB