Waybackurls cũng là một tooldựa trên Golang được sử dụng để thu thập thông tin tên miền trên sdin,tìm nạp các URL đã biết từ Wayback Machines, và xuất chúng ra stdout.. Wayback Machine l
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA CÔNG NGHỆ THÔNG TIN
HỌC PHẦN: AN TOÀN MẠNG
Bài báo cáo:
Tìm hiểu về công cụ waybackurls
Giảng viên hướng dẫn: TS Đặng Minh Tuấn Sinh viên thực hiện: Nhóm 02
Trần Thái Hùng B18DCAT104
Hà Nội, ngày 22 tháng 12 năm 2021
Trang 2Mục Lục
Chương 1: Giới thiệu, lịch sử hình thành 3
1.1 Giới thiệu sơ lược về Waybackurls 31.2 Internet Archive là gì? 31.3 Wayback Machine là gì? 4Chương 2: Hướng dẫn cài đặt và sử dụng 6
Chương 4: So sánh, Đánh giá và Kết luận 27
4.1 So sánh với các tool Crawl tự động khác 27
4.2 Đánh giá, kết luận về waybackurls 28
Trang 3LỜI MỞ ĐẦU
Thu thập thông tin là bước đầu tiên và nền tảng cho sự thành công củakiểm thử thâm nhập Càng có nhiều thông tin hữu ích về mục tiêu, thìcàng có thể tìm thấy nhiều lỗ hổng trong mục tiêu và tìm ra các vấn đềnghiêm trọng hơn trong mục tiêu bằng cách khai thác chúng
Trong kiểm thử xâm nhập web, Web crawling trong kiểm thử xâm nhậpweb là một khía cạnh quan trọng vì đây là quá trình lập chỉ mục dữ liệutrên các trang web bằng cách sử dụng các scripts tự động hoặc chươngtrình crawling Các chương trình thu thập thông tin phổ biến như: webcrawler, spider, spider bot, and a crawler Waybackurls cũng là một tooldựa trên Golang được sử dụng để thu thập thông tin tên miền trên sdin,tìm nạp các URL đã biết từ Wayback Machines, và xuất chúng ra stdout
Với bài tiểu luận tìm hiểu về Waybackurls với các đề tài “ Mở đầu Giớithiệu, lịch sử hình thành Hướng dẫn cài đặt, sử dụng Các bài demo
So sánh, đánh giá, kết luận” chúng ta sẽ cùng tìm hiểu về cách thứchoạt động của tool này
Trang 4Chương 1: Giới thiệu, lịch sử hình thành
1.1 Giới thiệu sơ lược về Waybackurls:
- Đây là tool được viết dựa trên golang bởi tonomnom
- Mô tả ngắn gọn công việc của nó theo tác giả: tìm các urls có sẵntrong Wayback Machine cho *.domain
Có 2 khái niệm ta cần tìm hiểu ở đây là: Internet Archive và WaybackMachine
1.2 Internet Archive là gì?
- là một thư viện số phi lợi nhuận có trụ sở San Francisco với sứmệnh lưu trữ nội dung Web trên Internet
- Thư viện cho phép tất cả mọi người truy cập tự do nội dung tài liệu
số, bao gồm các trang web, phần mềm ứng dụng/trò chơi, âmthanh/hình ảnh/video, và gần 3 triệu sách công cộng Tính đếntháng 05 năm 2014, thư viện có dữ liệu đạt 15 Petabyte
- Internet Archive bắt đầu vào năm 1996 bằng cách lưu trữ chínhInternet, một phương tiện mới bắt đầu được sử dụng Giống nhưbáo chí, nội dung được xuất bản trên web là phù du - nhưng
không giống như báo chí, không ai lưu nó Ngày nay, Internet
Archive có hơn 25 năm lịch sử web có thể truy cập thông qua
Wayback Machine
- Sứ mệnh tự xưng của nó là "bảo tồn các hiện vật văn hóa của xã
Trang 51.3 Wayback Machine là gì?
- WayBack Machine là một dịch vụ được cung cấp bởi Internet
Archive cho phép mọi người truy cập các phiên bản đã lưu trữ củacác trang web
- WayBack Machine được coi là thiết bị hiển thị Web vào bất kỳngày cụ thể nào, cung cấp cho người dùng một cửa sổ hiển thịtrang web trong quá khứ
- Máy WayBack cho phép bất kỳ ai nhập URL, chọn phạm vi ngày
và bắt đầu tìm phiên bản đã lưu trữ của trang web mong muốn
- Ví dụ: kể từ tháng năm 2013, một tìm kiếm đơn giản
“www.yahoo.com” cho thấy rằng trang web đó đã được thu thậpthông tin 38.583 lần, bắt đầu từ tháng 10 năm 1996
- Cách mà WayBack Machine có thể biên dịch và lưu trữ thông tinnày khá phức tạp Tuy nhiên, quá trình của nó có thể đơn giản hóaphần nào Internet Archive đã hợp tác với Alexa Internet, Inc., đãthiết kế một chỉ mục ba chiều cho phép duyệt các tài liệu web.Alexa Internet, một Công ty thuộc Amazon, “đã tạo ra một trongnhững công ty thu thập dữ liệu Web lớn nhất, và đã phát triển cơ
sở hạ tầng để xử lý và phục vụ một lượng lớn dữ liệu ” Kể từ đầunăm 1996, Alexa đã thu thập dữ liệu trên web và dịch vụ cho cácnhà nghiên cứu, học giả trong tương lai và các bên quan tâm
khác, Alexa Internet đóng góp một bản sao của mỗi lần thu thập
dữ liệu web lên Internet Archive
- Trình thu thập thông tin web là các chương trình phần mềm “lướtWeb và tự động lưu trữ các bản sao của các tệp trang web, bảoquản các tệp này khi chúng tồn tại tại thời điểm thu thập.” Một mô
Trang 6- Alexa Internet đã phát triển một trình thu thập thông tin web nhưvậy và tập hợp khoảng 1,6 terabyte (1.600 gigabyte) nội dung webmỗi ngày Mỗi ảnh chụp nhanh của web mất khoảng hai tháng đểhoàn thành; Tuy nhiên, kể từ 1996, Internet Alexa đã thu thập
được ảnh của 4,5 tỷ web pages từ hơn 16 triệu websites
- Có nhiều nguồn khác cũng lưu trữ trang web, bao gồm Gigablast,Google Bot của Google, v.v Tuy nhiên, Internet không ngừng pháttriển và một số nguồn này đã ngừng hoạt động hoặc thay thế bằngcác phiên bản mới hơn Ví dụ, Yahoo! công bố vào tháng 2 năm
2009 rằng dịch vụ lưu trữ của nó, Yahoo! MyWeb, sẽ ngừng hoạtđộng và được thay thế bằng Yahoo! Bookmarks và một dịch vụkhác, là Delicious
- Trái ngược với tính chất nhất thời của một số trang web lưu trữkhác, Internet Archive’s WayBack Machine lưu trữ hình ảnh côngchúng sử dụng Nhiều dịch vụ khác đã được bắt đầu sau năm
1996 và không giữ lại nhiều bản sao đã lưu trữ như Wayback
Machine
Ví dụ, Gigablast được thành lập vào năm 2000 và dường như chỉgiữ lại một bản sao được lưu trong bộ nhớ cache của mỗi trangweb
Một tìm kiếm cho Yahoo! Được lưu vào bộ nhớ đệm chỉ có kết quả
là ảnh chụp màn hình từ ngày 6 tháng 11 năm 2011(rất cũ)
- Đôi khi các dịch vụ lưu trữ web phụ thuộc vào chính WaybackMachine vì có nhiều ảnh chụp màn hình hơn
Trang 7Chương 2: Hướng dẫn cài đặt và sử dụng
2.1 Cài đặt trên máy Linux:
Bước 1: Cài đặt golang:
Kiểm tra xem golang đã được cài đặt trên máy: go version
nếu chưa có thì cài đặt: apt install golang
Bước 2: Tải tool waybackurls thông qua tiện ích Go sử dụng câu lệnh:
sudo go get github.com/tomnomnom/waybackurls
Trang 8Bước 3: Kiểm tra menu help để hiểu rõ hơn về tool và các tùy chọn:
Trang 10Ví dụ 2: Sử dụng thẻ -no-subs
echo "geeksforgeeks.org" | waybackurls -no-subs
Trong ví dụ này, mục tiêu là geeksforgeeks.org và ta đã cung cấp thẻ-no-subs, trong thẻ này, các URL sẽ chỉ được tìm nạp thông qua tênmiền chính Không có miền phụ nào được xem xét khi thu thập dữ liệuURL
Trang 11Trong ảnh chụp màn hình bên dưới, có thể thấy công cụ waybackurls đãtìm nạp một số URL nhưng điều quan trọng là nó chỉ tìm nạp các chỉ liênquan đến tên miền chính, không có tên miền phụ nào được xem xéttrong khi thu thập thông tin.
Trang 12Ví dụ 3: Sử dụng thẻ -date
echo "geeksforgeeks.org" | waybackurls -dates
Sử dụng thẻ -dates để lấy ngày trong cột đầu tiên Nó hiển thị ngày URL
đó được thêm vào Wayback Machine
Trang 14Ví dụ 4: Sử dụng thẻ -get-version
echo "geeksforgeeks.org" | waybackurls -get-versions
Ta có thể thấy rằng cùng với các URL được thu thập thông tin của
geeksforgeeks.org, có một số URL bổ sung chỉ định các nguồn mà cácURL của geeksforgeeks.org được thu thập thông tin từ đó Ví dụ
https://www.geeksforgeeks.org/ URL được tìm nạp bởi
https://web.archive.org/web/20211222165435if_ Điều này có thể giúp tatruy cập trực tiếp vào URL nguồn có thể khám phá thêm về URL được
Trang 16Chương 3: Bài Lab và Kịch bản Demo
- Tiếp theo sẽ cho danh sách các live sub domain chạy qua
waybackurls lưu vào file allurl.txt
Trang 17Sử dụng hprobe lọc live sub domain:
Trang 18Command hprobe được định nghĩa trong file ~/.profile sử dụng httprobe.
Sử dụng waybackurls đối với các live sub domain:
Trang 19Lab 2:
Mục tiêu: testasp.vulnweb.com
Các tools sử dụng: waybackurls, gf-pattern, kxss
Kịch bản demo:
- Sử dụng waybackurls đối với testasp.vulnweb.com
- Sau đó đưa kết quả qua gf-pattern với pattern là xss để lọc ranhững urls có khả năng dính lỗi xss
- Sau đó sử dụng kxss để test lỗi xss và tìm chính xác các urls dínhlỗi
Sử dụng waybackurls + gf pattern:
Trang 20Kết quả:
Trang 21Kết quả:
Trang 22Lab 3:
Mục tiêu: testasp.vulweb.com
Các tools sử dụng: waybackurls, gf-pattern, sqlmap
Kịch bản demo:
- Sử dụng waybackurls đối với testasp.vulnweb.com
- Sau đó đưa kết quả qua gf-pattern với pattern là sqli để lọc ranhững urls có khả năng dính lỗi sql injection
- Tiếp đó sử dụng sqlmap với các urls tìm được
Sử dụng waybackurls với gf-pattern:
Trang 23Kết quả:
Trang 24Kết quả:
Trang 25Kết quả:
Trang 26Lab 4:
Mục tiêu: lanhongco.com
Các tools sử dụng: waybackurls
Đối khi sử dụng mỗi waybackurls đã đem lại những thông tin có ích
Sử dụng waybackurls với mục tiêu ta tìm thấy trang đăng nhập của
admin bao gồm tài khoản và mật khẩu
Trang 28Chương 4: So sánh, Đánh giá và Kết luận
4.1 So sánh với các tool Crawl tự động khác ( Burp Spider, dirbuster,sublist3r, )
4.1.1 Ưu Điểm:
- Điểm khác biệt lớn nhất giữa waybackurls và các tools kể trên làwaybackurls thuộc loại Passive Reconnaissance Các tools kiathuộc Active Reconnaissance Do đó sự an toàn và ẩn danh caohơn
- Wayback url gửi yêu cầu đến Wayback Machine và lấy về urls tốc
độ khá nhanh và chứa một lượng lớn urls
- Các tools crawl khác thông thường sẽ gửi rất nhiều yêu cầu trựctiếp đến website dựa trên một list tên đường dẫn theo kiểu
brute-force sẽ gây ra sự chú ý của hệ thống log và dễ bị phát hiện.List đường dẫn thường chứa nhiều đường dẫn không tồn tại dẫnđến kết quả tìm kiếm bị thu hẹp Và như tất cả các kiểu brute-forcethì với một list lớn thì tốc độ sẽ rất chậm
- waybackurls không chỉ lấy những URLs của webiste ở trạng tháihiện tại mà nó còn chứa những URLs ở trong quá khứ Đó có thể
là những file thông tin nhạy cảm của trang web, có thể là các
đường link chứa thông tin cá nhân, tokenId của api
4.1.2 Nhược Điểm:
Trang 294.2 Đánh giá, kết luận về waybackurls:
- Reconnaissance là bước đầu tiên mà hacker sẽ thực hiện, nơi họ
cố gắng thu thập càng nhiều thông tin về mục tiêu càng tốt Thôngthường, hacker sẽ bắt đầu bằng cách do thám thụ động, khôngliên quan đến tương tác trực tiếp, khó phát hiện hơn và không liênquan đến việc sử dụng các công cụ động chạm vào trang web,mạng hoặc máy tính của mục tiêu
- Internet Archive chứa gần như toàn bộ các url, ảnh chụp màn hìnhthuộc về một trang web waybackurls là một tool passive
reconnaissance hiệu quả khi nó tận dụng điều này để mang lại cáinhìn chi tiết về cấu trúc file, thư mục của mục tiêu
- Thông tin thì khá nhiều nhưng sẽ trở nên vô dụng nếu ta khôngtận dụng được nó Bởi số lượng lớn URLs mà waybackurls lấy về,chúng ta cần có kĩ năng để phân tích thông tin hoặc kiến thức vềcác tools kết hợp lại với nhau để bóc tách thông tin
Trang 30Tài liệu tham khảo