PHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM FIDDLER (KHAI THÁC DỮ LIỆU TỪ MỘT WEBSITE) PHÁP CHỨNG KỸ THUẬT SỐ PHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM FIDDLER (KHAI THÁC DỮ LIỆU TỪ MỘT WEBSITE) PHÁP CHỨNG KỸ THUẬT SỐPHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM FIDDLER (KHAI THÁC DỮ LIỆU TỪ MỘT WEBSITE) PHÁP CHỨNG KỸ THUẬT SỐPHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM FIDDLER (KHAI THÁC DỮ LIỆU TỪ MỘT WEBSITE) PHÁP CHỨNG KỸ THUẬT SỐ PHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM FIDDLER (KHAI THÁC DỮ LIỆU TỪ MỘT WEBSITE) PHÁP CHỨNG KỸ THUẬT SỐ Fiddler là một phần mềm được phát triển bởi Microsoft trong cuộc chiến chống thông tin rác từ các website với thế mạnh là khả năng phân tích Web. Fiddler là công cụ xác định vị trí và sửa lỗi Proxy HTTP, lưu trữ bản ghi tất cả lưu lượng HTTP giữa máy tính và Internet 1. Cài đặt Fiddler Sinh viên cài đặt phần mềm Fiddler Web Debugging ver 2 với file fiddler2setup.exe trên Hệ điều hành Windows. File cài đặt Windows sẽ tạo một thư mục để lưu trữ thông tin và đặt tất cả các tập tin cần thiết bên trong của thư mục này. Sau khi cài đặt, Fiddler có thể giúp chúng ta tìm xem các trang web nào thực hiện những công việc gì và có thể phát hiện việc cài các phần mềm … . 2. Sử dụng Fiddler để khai thác các dữ liệu từ một Website Sau khi cài đặt, Fiddler hoạt động như một proxy cục bộ và đăng ký như hệ thống proxy trong khi chụp xem, phân tích và sửa đổi lưu lượng truy cập web từ bất kỳ ứng dụng nào trên máy tính của chúng ta. PHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM FIDDLER (KHAI THÁC DỮ LIỆU TỪ MỘT WEBSITE) PHÁP CHỨNG KỸ THUẬT SỐ PHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM FIDDLER (KHAI THÁC DỮ LIỆU TỪ MỘT WEBSITE) PHÁP CHỨNG KỸ THUẬT SỐPHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM FIDDLER (KHAI THÁC DỮ LIỆU TỪ MỘT WEBSITE) PHÁP CHỨNG KỸ THUẬT SỐ PHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM FIDDLER (KHAI THÁC DỮ LIỆU TỪ MỘT WEBSITE) PHÁP CHỨNG KỸ THUẬT SỐ Sinh viên khởi động Fiddler từ máy tính của mình để bắt đầu điều tra thông tin từ các Website, khởi động một Web Browser và truy cập các địa chỉ Website thông dụng như Website cung cấp thông tin: vnexpress.net, www.tuoitre.vn..., Website nghe nhạc, xem phim trực tuyến: mp3.zing.vn, nhaccuatui.com …, Website bán hàng trực tuyến: http:www.lazada.vn, nguyenkim.com…. Sinh viên quan sát các Object thu được trong Fiddler. Với mỗi loại Website liệt kê ở trên (Website thông tin, Website nghe nhạc trực tuyến, Website bán hàng online), hãy chọn một Website tương ứng để tìm hiểu và làm báo cáo về các thông tin sau đây: • Cho biết số lượng Object có liên quan đến Website vừa truy cập • Cho biết có bao nhiêu Host chứa các Object có liên quan đến Website • Kiểm tra các nội dung hình ảnh của những Object loại “image” như “imagejpeg”, “imagegif”, “imagepng”… • Cho biết có bao nhiêu loại application trong các Object có liên quan đến Website • Tìm và kiểm tra nội dung các Object loại application • Tìm hiểu việc cài đặt cookies trong các Object loại application • Nhận xét về thông tin tìm hiểu được
Trang 1Khoa Mạng máy tính và Truyền thông
BÁO CÁO THỰC HÀNH MÔN HỌC: PHÁP CHỨNG KỸ THUẬT SỐ
NT334.H11 BÀI THỰC HÀNH 3: PHÁP CHỨNG NỘI DUNG WEBSITE VỚI PHẦN MỀM
FIDDLER Mục tiêu: sinh viên hiểu rõ các tính năng của công cụ phần mềm Fiddler khi tiến hành
điều tra và tìm kiếm thông tin trong một Website
Thời gian thực hành: 1 buổi
Fiddler là một phần mềm được phát triển bởi Microsoft trong cuộc chiến chống thông tin rác từ các website với thế mạnh là khả năng phân tích Web Fiddler là công cụ xác định vị trí và sửa lỗi Proxy HTTP, lưu trữ bản ghi tất cả lưu lượng HTTP giữa máy tính và Internet
1 Cài đặt Fiddler
Sinh viên cài đặt phần mềm Fiddler Web Debugging ver 2 với file fiddler2setup.exe trên
Hệ điều hành Windows File cài đặt Windows sẽ tạo một thư mục để lưu trữ thông tin và đặt tất cả các tập tin cần thiết bên trong của thư mục này
Sau khi cài đặt, Fiddler có thể giúp chúng ta tìm xem các trang web nào thực hiện những công việc gì và có thể phát hiện việc cài các phần mềm …
2 Sử dụng Fiddler để khai thác các dữ liệu từ một Website
Sau khi cài đặt, Fiddler hoạt động như một proxy cục bộ và đăng ký như hệ thống proxy trong khi chụp xem, phân tích và sửa đổi lưu lượng truy cập web từ bất kỳ ứng dụng nào trên máy tính của chúng ta
Trang 2Mô hình hoạt động của Fiddler
Sinh viên khởi động Fiddler từ máy tính của mình để bắt đầu điều tra thông tin từ các Website, khởi động một Web Browser và truy cập các địa chỉ Website thông dụng như Website cung cấp thông tin: vnexpress.net/, www.tuoitre.vn/ , Website nghe nhạc, xem phim trực tuyến: mp3.zing.vn, nhaccuatui.com/ …, Website bán hàng trực tuyến:
http://www.lazada.vn/, nguyenkim.com…
Sinh viên quan sát các Object thu được trong Fiddler Với mỗi loại Website liệt kê ở trên (Website thông tin, Website nghe nhạc trực tuyến, Website bán hàng online), hãy chọn một Website tương ứng để tìm hiểu và làm báo cáo về các thông tin sau đây:
• Cho biết số lượng Object có liên quan đến Website vừa truy cập
• Cho biết có bao nhiêu Host chứa các Object có liên quan đến Website
• Kiểm tra các nội dung hình ảnh của những Object loại “image” như
“image/jpeg”, “image/gif”, “image/png”…
• Cho biết có bao nhiêu loại application trong các Object có liên quan đến Website
• Tìm và kiểm tra nội dung các Object loại application
• Tìm hiểu việc cài đặt cookies trong các Object loại application
• Nhận xét về thông tin tìm hiểu được
-Trường hợp 1: Với website thông tin http://www.vnexpress.net
Click vào một bài báo bất kỳ
Trang 31.1. Cho biết số lượng Object có liên quan đến Website vừa truy cập: 255 objects trong
đó có mốt số Object thừa mà trình duyệt tự gửi request.
1.2. Cho biết có bao nhiêu Host chứa các Object có liên quan đến Website:
Để đếm số lượng host chứa các object có liên quan đến website, trong giao diện Fidder, chọn tất cả các Object mà Fidder bắt được, chuyển sang thẻ Statistics:
Vậy số lượng Host là : 66 host
Trang 41.3 Kiểm tra các nội dung hình ảnh của những Object loại “image” như “image/jpeg”,
“image/gif”, “image/png”…
- Kiểm tra nội dung của hình ảnh dạng “image/jpeg”:
Chuyển qua thẻ Inspector | Image View để xem nội dung của hình ảnh
Một số thông tin meta data về hình ảnh thu thập được là:
• Dung lượng : 51,799 bytes
• Kích thướt ảnh : 490 width x 294 hight
• Định dạng : JPEG
• Kiểu hiển thị hình ảnh: progressive ( có nghĩa là hình ảnh sẽ được nhanh chóng hiển thị với chất lượng thấp, đôi lúc chúng ta thấy chúng bị nhòe, sau đó dần dần hiển thị với chất lượng cao sau tùy thuộc vào băng thông của mạng)
• Subsample@4:2:0 thông số về số lượng thông tin màu sắc và số lượng thông tin về độ sáng trên mỗi pixels Số 4 chỉ một đơn vị diện tích bao gồm 4 pixels theo chiều rộng và 2 pixels theo chiều cao ( 4 width x 2 height pixels), Số 2 chỉ trên một dòng gồm 4 pixels thì chỉ chứa 2 thông tin màu khác nhau , còn số 0 chỉ trong một cột có độ cao là 2 pixels thì có 0 thông tin màu khác nhau ( tuy nhiên thông tin về độ sáng được giữ nguyên, đó là ý tưởng của giải thuật nén ảnh jpeg bằng cách giảm số lượng thông tin lưu trữ màu sắc trên mỗi pixels từ
đó dung lượng ảnh cũng được giảm theo)
• DPI 72 : "DPI" là chữ viết tắt của "dots per inch" là số điểm ảnh trên 1 inch vuông
• Các thông số còn lại liên quan đến giải thuật nén Huffman được sử dụng trong từng file jpeg
Trang 5Một loại hình ảnh kiểu “image/jpeg” khác mà chúng ta cũng cần để ý đến :
Kiểu hiển thị hình ảnh: Baseline ( tức là khi hiển thị hình ảnh về phía web browser
thì hình ảnh sẽ được vẽ lên từ trên xuống dưới với độ phân giải đã được định nghĩa trước)
- Kiểm tra nội dung của hình ảnh : “image/png”
• Dung lượng ảnh :13,827 bytes
• Kích thước ảnh: 150 width x 150 hight
• Định dạng :PNG
Trang 6• Color: RGB 8 bit: kiểu màu mà hình ảnh này sử dụng là Red Green Blue,
sử dụng tổng cộng 8 bit
- Kiểm tra nội dung của hình ảnh : “image/gif”
Dung lượng : 42 bytes Kích thướt : 1 width x 1 hight Định dạng: GIF
Sử dụng bảng màu toàn bộ (global color table): Phạm vi sử dụng bảng màu toàn bộ là trong toàn bộ luồng dữ liệu, trong khi bảng màu cục bộ sử dụng giới hạn trong một hình ảnh đơn lẻ
1.4 Cho biết có bao nhiêu loại application trong các Object có liên quan đến Website:
Có tổng cộng là 4 loại, bao gồm:
• Application/javascript
• Application/x-javascript
• Application/json
• Application/xml
1.5 Tìm và kiểm tra nội dung các Object loại application
• Nội dung của loại application/javascripts:
Trang 7Nội dung chủ yếu là các đoạn javascript được chèn thêm
• Nội dung của application/x-javascripts
• Nội dung của application/json
• Nội dung của loại application/xml
1.6.Tìm hiểu việc cài đặt cookies trong các Object loại application:
• Đối với loại application/javascripts:
Trang 8Loại này cung cấp tổng cộng 91 + 203 + 42 bytes cookies và những thông tin kèm theo:
o Expires: thời gian hết hạn
o Path: Đường dẫn lưu cookies
o Domain: tên miền tương ứng
Tuy nhiên có một số object loại này lại không set cookies vào trình duyệt
• Đối với loại application/x-javascripts:
Loại application object này thường không set cookies vào máy tính người dùng
• Đối với loại application/json
Loại application object này thường không set cookies vào máy tính người dùng
• Đối với loại application/xml
Trang 9Loại này cung cấp tổng cộng 56 bytes cookies và những thông tin kèm theo:
o Expires: thời gian hết hạn
o Path: Đường dẫn lưu cookies
o Domain: tên miền tương ứng
1.7.Nhận xét về thông tin tìm hiểu được:
Fidder là công cụ mã nguồn mở miễn phí cung cấp cho chúng ta những thông tin hữu ích khi thực hiện pháp chứng nội dung website Từ đó, chúng ta có thể xác định được rằng nội dung website http://vnexpress.net chứa nhiều liên kết đến nhiều trang khác khi người dùng thực hiện truy vấn thông tin, các ảnh trên website này đa số là định dạng jpeg để làm giảm lưu lượng cần truyền đồng thời tăng tốc độ duyệt web Website có chứa nhiều liên kết quảng cáo, chính các liên kết quảng cáo này thực hiện cài đặt cookies trái phép vào máy người dùng, tuy nhiên không có hành động khả nghi trong việc thu thập và theo dõi người dùng
Trường hợp 2: Đối với website nghe nhạc trực tuyến: nhaccuatui.com click vào một bài hát bất kỳ
Trang 101.1. Cho biết số lượng Object có liên quan đến Website vừa truy cập: 145 objects
1.2. Cho biết có bao nhiêu Host chứa các Object có liên quan đến Website: 45 hosts
1.3. Kiểm tra các nội dung hình ảnh của những Object loại “image” như
“image/jpeg”, “image/gif”, “image/png”…
• Kiểm tra nội dung của hình ảnh dạng “image/jpeg”:
Trang 11o Dung lượng ảnh: 197,575 bytes
o Kích thước: 840 width x 339 height
o Định dạng: JPEG
o Kiểu hiển thị: Baseline
o SubSample@4:4:4 liên quan đến giải thuật nén ảnh jpeg bằng cách cắt giảm thông tin về màu sắc trên từng pixel đã đề cập ở trên Tuy nhiên 4:4:4 chỉ ra rằng mỗi pixel trên file ảnh này có chứa thông tin đầy đủ về độ sáng cũng như màu sắc
o Các thông tin còn lại liên quan đến chi tiết giải thuật nén Huffman được dùng trong file jpeg
• Kiểm tra nội dung của hình ảnh : “image/png”
Trang 12o Dung lượng: 8.800 bytes
o Kích thước ảnh: 120 width x 55 height pixel
o Định dạng: PNG
o Định dạng màu: RGB 8 bit
• Kiểm tra nội dung của hình ảnh : “image/gif”
o Dung lượng: 1.211 bytes
o Kích thước ảnh: 22 width x 9 height
o Định dạng: GIF
o Khung : 2
o Thời gian delay : 250ms
o Lặp :Không giới hạn
Trang 131.4. Cho biết có bao nhiêu loại application trong các Object có liên quan đến Website
Có 3 loại
• Application/json
• Application/x-javascripts
• Application/javascripts
1.5. Tìm và kiểm tra nội dung các Object loại application :
Nội dung của loại application/json:
Nội dung của loại application/javascripts:
Nội dung của loại application/x-javascripts
1.6.Tìm hiểu việc cài đặt cookies trong các Object loại application
Đối với loại application/javascripts
Trang 14Gồm 1897 bytes
Đối với loại application/x-javascripts
Loại này thì không thiết đặt cookies vào máy người dùng
Đối với loại application/font-woff:
Loại này cũng không thiết đặt cookies vào máy người dùng
Trang 151.7.Nhận xét về thông tin tìm hiểu được:
Fidder là công cụ mã nguồn mở miễn phí cung cấp nhiều thông tin hữu ích khi thực hiện pháp chứng nội dung website Nhờ công cụ này, chúng ta biết rằng trang web
https://nhaccuatui.com chứa nhiều object hình ảnh, object flash và có chứa nhiều liên kết quảng cáo, chính các liên kết quảng cáo này thực hiện set cookies vào máy người dùng Website không có hành động thu thập, theo dõi thông tin người dùng
Trường hợp 3: Đối với loại website bán hàng lazada.vn
1.1. Cho biết số lượng Object có liên quan đến Website vừa truy cập: 173 objects
1.2. Cho biết có bao nhiêu Host chứa các Object có liên quan đến Website: 77 hosts
Trang 161.3. Kiểm tra các nội dung hình ảnh của những Object loại “image” như
“image/jpeg”, “image/gif”, “image/png”…
Đối với dạng hình ảnh “image/gif”
• Dung lượng ảnh: 35 bytes
• Kích thước ảnh: 1 width x 1 height pixel
• Định dạng: GIF
Đối với dạng hình ảnh “image/jpeg”
Trang 17• Dung lượng : 6,096 bytes
• Kích thướt ảnh : 376 width x 134 hight
• Định dạng : JPEG
• Kiểu hiển thị hình ảnh: Baseline ( tức là khi hiển thị hình ảnh về phía web
browser thì hình ảnh sẽ được vẽ lên từ trên xuống dưới với độ phân giải đã được định nghĩa trước)
• Subsample@4:2:0 thông số về số lượng thông tin màu sắc và số lượng thông tin về độ sáng trên mỗi pixels Số 4 chỉ một đơn vị diện tích bao gồm 4 pixels theo chiều rộng và 2 pixels theo chiều cao ( 4 width x 2 height pixels), Số 2 chỉ trên một dòng gồm 4 pixels thì chỉ chứa 2 thông tin màu khác nhau , còn số 0 chỉ trong một cột có độ cao là 2 pixels thì có 0 thông tin màu khác nhau ( tuy nhiên thông tin về độ sáng được giữ nguyên, đó là ý tưởng của giải thuật nén ảnh jpeg bằng cách giảm số lượng thông tin lưu trữ màu sắc trên mỗi pixels từ
đó dung lượng ảnh cũng được giảm theo)
• DPI 96 : "DPI" là chữ viết tắt của "dots per inch" là số điểm ảnh trên 1 inch vuông
• Các thông số còn lại liên quan đến giải thuật nén Huffman được sử dụng trong từng file jpeg
Đối với dạng hình ảnh “image/png”
• Dung lượng ảnh: 17,981 bytes
• Kích thước ảnh: 80 width x 80 height pixel
Trang 18• Định dạng: PNG
• Kiểu phối màu: RGBA 8 bit ( sử dụng 8 bit cho các màu đỏ, lục, lam và
độ sáng)
• ICCP:chứa những thông tin cần thiết cho việc chỉnh sửa màu trên ảnh
1.4. Cho biết có bao nhiêu loại application trong các Object có liên quan đến Website:
Có 3 loại:
o Application/javascript
o Application/json
o Application/x-javascript
1.5. Tìm và kiểm tra nội dung các Object loại application :
Đối với loại Application/javascript
Nội dung chủ yếu là đoạn mã javarscript
Đối với loại Application/x-javascript
Nội dung chủ yếu chứa các đoạn mã java-scripts
Đối với loại Application/json
Trang 19Nội dung chứa là một chuỗi json object.
1.6.Tìm hiểu việc cài đặt cookies trong các Object loại application
Đối với loại application/javascripts: Có object thì set cookies vào máy , có object thì không set cookies vào máy
Trong phần response của loại object này chứa kèm theo 109 bytes cookies cài đặt trong máy người dùng
Object này thì lại không lưu cookies vào máy người dùng
Đối với loại application/javascripts: cũng tương tự như loại
Application/javascripts
Trang 20Object này thì lưu khá nhiều bytes cookies vào máy
Object này thì lại không lưu cookies vào máy
Đối với loại application/json
Trong phần response của loại object này chứa kèm theo nhiều bytes cookies cài đặt trong máy người dùng
1.7.Nhận xét về thông tin tìm hiểu được:
Fidder là một công cụ miễn phí cho phép người dùng thu thập nhiều thông tin cần thiết khi thực hiện pháp chứng nội dung website Nhờ công cụ này, cho biết website thương mại điện tử http://www.lazada.vn cũng chứa nhiều liên kết đến các website khác
và các liên kết quảng cáo, đặc biệt là các quảng cáo dạng popup khó chịu Đồng thời nó còn chứa nhiều hình ảnh dạng gif và các file ảnh png chất lượng cao có thể làm chậm tốc
độ load website Website có hành động set cookies vào máy khi người dùng đăng nhập để mua hàng Tuy nhiên không có những hành động thu thập hay theo dõi người dùng trái phép