Một số phát hiện mớI trong đo lường và phân tích lưu lượng internet Mô hình và các thuộc tính phân loạI lưu lượng theo ứng dụng Một số phát hiện mớI trong đo lường và phân tích lưu lượng internet Mô hình và các thuộc tính phân loạI lưu lượng theo ứng dụng luận văn tốt nghiệp thạc sĩ
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN TÀI HƯNG
MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN TÍCH LƯU LƯỢNG INTERNET MÔ HÌNH VÀ CÁC THUỘC TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG
LUẬN ÁN TIẾN SĨ KỸ THUẬT
HÀ NỘI - 2007
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN TÀI HƯNG
MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN TÍCH LƯU LƯỢNG INTERNET MÔ HÌNH VÀ CÁC THUỘC TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG
Chuyên nghành: Kỹ thuật viễn thông
Mã số: 62.52.70.05
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TS PHẠM MINH HÀ
Hà Nội - 2007
Trang 3Lời cam đoan
Tôi xin cam đoan luận án này là công trình nghiên cứu của chính bản thân Các kết quả nghiên cứu trong luận án là trung thực và chưa được công bố trong bất kỳ công trình nào khác
Tác giả luận án
NGUYỄN TÀI HƯNG
Trang 4Mục lục
Lời cam đoan i
Mục lục ii
Danh mục các chữ viết tắt v
Danh mục các từ khoá và ký hiệu vi
Danh mục các hình vẽ và đồ thị vii
Danh mục các bảng ix
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Đối tượng, mục tiêu và phạm vi nghiên cứu của luận án 2
3 Phương pháp nghiên cứu của luận án 3
4 Ý nghĩa khoa học và thực tiễn của luận án 5
5 Bố cục của luận án 5
Ch−¬ng 1 TỔNG QUAN VỀ PHÂN TÍCH VÀ NHẬN DẠNG LUỒNG LƯU LƯỢNG INTERNET 8
1.1 Nhu cầu phân tích và nhận dạng luồng lưu lượng ứng dụng Internet 8
1.2 Các nghiên cứu liên quan 10
1.3 Kết luận về vấn đề nghiên cứu của luận án 15
Ch−¬ng 2 ĐO LƯỜNG VÀ LẤY MẪU LƯU LƯỢNG INTERNET 17
2.1 Giới thiệu chung 17
2.2 Đo lường thụ động 19
2.2.1 Khảo sát các phương pháp và ứng dụng đo lường thụ động 21
2.2.1.1 Tiến trình bắt giữ gói lưu lượng 21
2.2.1.2 Tiến trình phân tích thô dữ liệu gói bắt được 22
2.2.1.3 Đo lường mạng đường trục 24
2.2.1.4 Đo lường mạng nội bộ 25
2.2.1.5 Đo lường mạng quay số (Dial-up và ADSL) 26
2.2.2 Các phương pháp nén dữ liệu đo 27
2.2.3 Vấn đề đồng bộ thời gian 28
2.3 Kỹ thuật lấy mẫu lưu lượng mạng Internet 29
2.3.1 Thuật toán lấy mẫu 30
2.3.1.1 Lấy mẫu hệ thống 30
2.3.1.2 Lấy mẫu ngẫu nhiên 31
2.3.1.3 Lấy mẫu phân tầng 32
2.3.2 Tần số lấy mẫu và khoảng lấy mẫu 32
2.4 Phần mềm BKCAP 33
2.4.1 Yêu cầu thiết kế 33
2.4.2 Thiết kế hệ thống 35
2.4.3 Đánh giá hiệu suất hoạt động của BKCAP 39
2.5 Tổ chức cơ sở dữ liệu đo 40
2.5.1 Các tệp dữ liệu lưu lượng sử dụng trong luận án 40
2.5.2 Tỉ lệ phần trăm số lượng luồng theo từng ứng dụng 44
2.6 Kết luận 45
Ch−¬ng 3 PHÂN TÍCH LUỒNG LƯU LƯỢNG IP TRÊN INTERNET 47
3.1 Khái niệm luồng lưu lượng trên Internet 48
Trang 53.1.1 Định nghĩa 48
3.1.2 Cơ chế kết thúc luồng 49
3.1.3 Các thuộc tính của luồng 50
3.2 Phân tích các luồng lưu lượng IP trên Internet 51
3.2.1 Cơ sở toán học thống kê 51
3.2.1.1 Lý thuyết lưu lượng và Internet 51
3.2.1.2 Phương pháp dự đoán phân bố phù hợp với dữ liệu đo thực nghiệm 55
3.2.2 Phân tích phân bố I.A.T của các luồng lưu lượng IP 60
3.2.2.1 Phân bố I.A.T của các luồng lưu lượng IP của tất cả các ứng dụng 60
3.2.2.2 Phân bố I.A.T của các luồng lưu lượng IP của từng ứng dụng riêng lẽ 67
3.2.2.3 Mô hình đánh giá độ dài phần đuôi của phân bố quá trình đến của các luồng lưu lượng IP 73
3.2.3 Phân bố kích thước luồng lưu lượng IP 80
3.2.3.1 Phân bố kích thước luồng theo gói 81
3.2.3.2 Phân bố kích thước luồng theo byte 82
3.2.3.3 Phân bố thời lượng luồng 84
3.3 Kết luận 85
Ch−¬ng 4 MÔ HÌNH TỰ ĐỘNG NHẬN DẠNG VÀ PHÂN LOẠI LUỒNG LƯU LƯỢNG IP TRÊN INTERNET 87
4.1 Giới thiệu chung 87
4.2 Cơ sở lý thuyết học tự động 89
4.2.1 Định nghĩa 89
4.2.2 Thành phần 89
4.2.3 Học có giám sát và học không có giám sát 90
4.2.4 Lựa chọn thuộc tính 90
4.2.4.1 Tổ chức tìm kiếm 91
4.2.4.2 Mô hình hoán đổi 92
4.2.4.3 Mô hình bộ lọc 93
4.2.5 Thuật toán phân loại (thuật toán học) 94
4.2.5.1 Thuật toán C4.5 94
4.2.5.2 Thuật toán Naive Bayes / NBD 96
4.2.5.3 Thuật toán lân cận gần nhất (kNN) 97
4.2.5.4 AdaBoost – kỹ thuật “Boosting” 97
4.3 Xây dựng mô hình nhận dạng và phân loại luồng lưu lượng IP bằng phương pháp học tự động 98
4.3.1 Chuẩn bị dữ liệu 100
4.3.2 Xây dựng tập các thuộc tính của luồng lưu lượng IP 101
4.3.2.1 Các thuộc tính liên quan đến các phân bố về tải tin và i.a.t gói và luồng 105 4.3.2.2 Các thuộc tính xác định tính qui luật của tải tin và tốc độ truyền 108
4.3.2.3 Các thuộc tính thể hiện tính chất tương tác: dòng lệnh và bàn phím 109
4.3.2.4 Các thuộc tính thể hiện các phiên làm việc kiểu truyền dữ liệu 111
4.3.2.5 Các thuộc tính thể hiện hướng truyền 112
4.3.3 Lớp lưu lượng 115
4.3.4 Công cụ phân tích 117
4.3.5 Phương pháp đánh giá hiệu suất của các bộ phân loại 119
4.3.6 Lựa chọn thuộc tính 121
Trang 64.3.7 Xây dựng mô hình 127
4.3.8 Mô phỏng và đánh giá mô hình 128
4.3.8.1 Tỉ lệ phân loại đúng và sai 128
4.3.8.2 Tốc độ phân loại và thời gian học 132
4.3.8.3 Sự phụ thuộc vào kích thước dữ liệu mẫu 133
4.3.8.4 Sự phụ thuộc vào thời gian time-out của luồng 133
4.3.8.5 Sự phụ thuộc vào kích thước cửa sổ luồng 135
4.4 Kết luận 137
KẾT LUẬN VÀ KIẾN NGHỊ 139
1 Kết quả nghiên cứu 139
2 Hướng phát triển của đề tài 140
DANH MỤC CÁC CÔNG TRÌNH 141
TÀI LIỆU THAM KHẢO 142
PHỤ LỤC A - MỘT SỐ CÔNG CỤ THU THẬP VÀ ĐO LƯỜNG LƯU LƯỢNG GÓI HIỆN CÓ .149
Trang 7Danh mục các chữ viết tắt
Một số từ viết tắt quan trọng sử dụng trong luận án
tích bù
Complement/Cummulative Density Function
đến
Inter-arrival time
Protocol
IG Lượng thông tin (của 1 thuộc tính) Information Gain
HFA Bộ công cụ tạo luồng lưu lượng HUT Flow Analysis
Secured
Libpcap Bộ thư viện các hàm bắt gói Libraries for packet capturing
MAC Giao thức điều khiển truy nhập Media Access Control
SSE Chỉ số kiểm tra mức độ phù hợp Sum of Square due to Error
R 2 Chỉ số kiểm tra mức độ phù hợp R-Square
RTT Trễ phía phát ->phía thu ->phía phát Round Trip Time
TTL Thời gian sống của gói trên mạng Time to live
Trang 8Danh mục các từ khoá và ký hiệu Các từ khoá
qui luật (phân loại) từ dữ liệu mẫu
Phân loại lưu lượng Là quá trình nhận dạng lưu lượng của 1 ứng dụng hoặc nhóm ứng
dụng trên mạng Internet từ đó phân chia thành các nhóm khác nhau
tìm hiểu các đặc tính đặc trưng của các luồng lưu lượng Internet
kéo dài, hay có nghĩa có lượng biến thiên vô hạn (suy giảm chậm theo qui luật luỹ thừa)
học bằng cách kết hợp nhiều thuật toán học kém chính xác hơn
giả định nào đấy
tất cả các gói lưu thông trong mạng
trước sang ngôn ngữ máy
Bảng một số ký hiệu
α Tham số của các phân bố vệt dài, thể hiện mức độ kéo dài của phần đuôi của phân bố
τ Biến thời gian time-out trong định nghĩa các luồng lưu lượng IP
H(X) Entropy của biến ngẫu nhiên X
P(X=y) Xác suất biến ngẫu nhiên X lấy giá trị y
P(c j |y) Xác suất dữ liệu y thuộc lớp c j
Trang 9Danh mục các hình vẽ và đồ thị
Hình 2-1 Kiến trúc phần mềm bắt và phân tích gói lưu lượng Internet BKCAP 37
Hình 2-2 Tổ chức cơ sở dữ liệu luồng lưu lượng đo được trong BKCAP 38
Hình 2-3 Sơ đồ bố trí hệ thống đo và thu thập dữ liệu lưu lượng thực tế tại EVN Telecom 40
Hình 2-4 Định dạng fs 42
Hình 2-5 Phân chia các gói lưu lượng thành các luồng tương ứng 43
Hình 2-6 Phân bố số lượng luồng giữa các ứng dụng, thống kê từ các tệp dữ liệu đo DL1 và DL7 45
Hình 3-1 Đồ thị log-log CCDF của các phân bố vệt dài (theo [34][35]) 54
Hình 3-2 Hàm CDF I.A.T của các luồng lưu lượng thực nghiệm trong tệp dữ liệu DL1, với các giá trị time-out khác nhau 61
Hình 3-3 Biểu đồ phân bố I.A.T luồng lưu lượng của một số dữ liệu đo 64
Hình 3-4 Hàm ccdf I.A.T của các luồng lưu lượng (a) trên thang tuyến tính và (b) thang logarit – DL2, 60s 66
Hình 3-5 Phân bố I.A.T của các luồng lưu lượng của một số ứng dụng chính trong hai tập dữ liệu DL1 và DL4 Tần suất xuất hiện ở đây là các giá trị đã được chuẩn hoá 72
Hình 3-6 Đồ thị Q-Q giữa dữ liệu thực nghiệm của ứng dụng imap và các phân bố giả định, DL1, 60s 75
Hình 3-7 Vùng đuôi dài của đồ thị log-log CCDF của phân bố I.A.T luồng lưu lượng Internet (2, 4, 8, 16, 32, 64, 128, 256 và 512 là các mức tổng hợp dữ liệu tương ứng) .78
Hình 3-8 Đồ thị log-log CCDF phân bố kích thước luồng lưu lượng Internet theo gói trong các tệp dữ liệu DL1 và DL7 và thời gian time-out là 60s 81
Hình 3-9 Đồ thị CCDF (thang logarit) phân bố kích thước các luồng lưu lượng IP trong dữ liệu DL1 theo byte. 83
Hình 3-10 Đồ thị CDF phân bố kích thước thời lượng các luồng lưu lượng IP, xét trong dữ liệu DL1 và thời gian Time-out = 60s 84
Hình 4-1 Mô hình phân loại lưu lượng Internet ở mức luồng 88
Hình 4-2 Mô hình lựa chọn thuộc tính cho quá trình phân loại tự động 93
Hình 4-3 Lưu đồ thuật toán phân loại luồng lưu lượng sử dụng kỹ thuật học tự động 100
Hình 4-4 Mô phỏng khái niệm các phân bố rời rạc tải tin và I.A.T của các gói thuộc luồng 107
Hình 4-5 Phân bố số lượng luồng trong cửa sổ quan sát 108
Hình 4-6 Lưu đồ qúa trình học, đánh giá và kiểm tra mô hình phân loại 121
Hình 4-7 Thứ tự 20 thuộc tính quan trọng nhất 126
Hình 4-8 Độ chính xác của các thuật toán phân loại khác nhau khi thực hiện trên toàn bộ 42 thuộc tính 129
Hình 4-9 Độ chính xác của các thuật toán phân loại khác nhau khi thực hiện trên 15 thuộc tính quan trọng nhất 129
Hình 4-10 Độ tin cậy hay tỉ lệ phân loại đúng của các lớp lưu lượng tương ứng 130
Trang 10Hình 4-11 Độ tin cậy phân loại của các lớp lưu lượng tính trung bình trên tất cả các tập dữ liệu và các thuật toán học 131 Hình 4-12 Độ chính xác trung bình theo kích thước tập dữ liệu mẫu 133 Hình 4-13 Độ chính xác phân loại theo thời gian time-out của luồng, tệp dữ liệu mẫu là DL7 và sử dụng cả 42 thuộc tính luồng 134 Hình 4-14 Biến thiên độ tin cậy theo thời gian time-out của luồng, dữ liệu DL7, sử dụng 42 thuộc tính 135 Hình 4-15 Sự phụ thuộc giữa độ chính xác và khoảng chồng lấn cửa sổ 137 Hình 4-16 Sự phụ thuộc giữa độ chính xác và kích thước cửa sổ 137
Trang 11Danh mục các bảng
Bảng 1-1 Chín thuộc tính cơ bản của kết nối mạng theo Lee và Stolfo 12
Bảng 1-2 Các thuộc tính luồng tương tác theo Paxson và Zhang 13
Bảng 1-3 Các thuộc tính sử dụng để phân chia lưu lượng theo Hernandez-Campos14 Bảng 2-1 Một số phép đo điển hình trên mạng Internet 17
Bảng 2-2 Ví dụ tệp xml mô tả cấu trúc giao thức RTP 37
Bảng 2-3 Các tệp dữ liệu lưu lượng Internet dùng trong luận án. 41
Bảng 2-4 Dữ liệu luồng lưu lượng phục vụ phân tích quá trình đến 43
Bảng 3-1 Các thông số thống kê thời điểm đến (I.A.T) của các luồng lưu lượng 61
Bảng 3-2 Tóm tắt kết quả sự phù hợp giữa phân bố i.a.t thực nghiệm của các luồng lưu lượng của các ứng dụng trong dữ liệu DL7 (τ = 60s) với một số phân bố giả định 79
Bảng 4-1 Số lượng luồng của mỗi tệp dữ liệu tương ứng 101
Bảng 4-2 Tập các thuộc tính của luồng phục vụ bài toán phân loại lưu lượng 102
Bảng 4-3 Danh sách các lớp lưu lượng 116
Bảng 4-4 Danh sách các thuộc tính luồng lưu lượng IP 122
Bảng 4-5 Kết qủa lựa chọn thuộc tính theo giải thuật CFS 124
Bảng 4-6 Kết quả lựa chọn thuộc tính theo các mô hình bộ lọc khác và mô hình hoán đổi 125
Bảng 4-7 Danh sách 15 thuộc tính tốt nhất 126
Bảng 4-8 Các thông số hiệu suất của các thuật toán phân loại lưu lượng 132
Trang 12MỞ ĐẦU
1 Tính cấp thiết của đề tài
Xu hướng hội tụ công nghệ trong lĩnh vực viễn thông đã làm cho mạng Internet trở thành hạ tầng truyền thông chủ yếu của tất cả các ứng dụng thông tin liên lạc, từ các ứng dụng truyền thống như duyệt web, gửi thư điện tử, truyền file, vv đến các ứng dụng thời gian thực như VoIP, truyền hình trực tuyến, trò chơi trực tuyến và các dịch vụ chia sẽ Việc triển khai các ứng dụng thời gian thực này tạo ra thách thức rất lớn đối với Internet trên hai khía cạnh: (i) cung cấp chất lượng dịch vụ (QoS) và (ii) giám sát mức chất lượng dịch vụ do mạng cung cấp
Để xây dựng kiến trúc cung cấp QoS và/hoặc mô hình giám sát mức chất lượng mà mạng cung cấp, việc đầu tiên và đóng vai trò quan trọng nhất là phải xác định được các biểu hiện hoạt động và biến thiên của lưu lượng của các ứng dụng trên Internet, từ đó tìm ra các đặc trưng lưu lượng của từng loại ứng dụng Từ các đặc trưng này sẽ tiến hành xây dựng các mô hình nhận dạng lưu lượng ứng dụng và
do đó có thể áp dụng các mức ưu tiên xử lý khác nhau với chúng
Thực tế cũng đã có nhiều nghiên cứu về các đặc tính và biểu hiện biến thiên
của lưu lượng Internet Có thể chỉ ra những nghiên cứu điển hình bao gồm: On the
Self-Similar Nature of Ethernet Traffic (bản đầy đủ),” IEEE/ACM Transactions on Networking, 2(1), trang 1-13, 1994, của các tác giả Leland, W., M Taqqu, W
Willinger, và D Wilson; Wide area Internet traffic patterns and characteristics,
IEEE Network Mag Tập 11(6), trang 10-23, 1997 của các tác giả Kevin Thompson,
Gregory J Miller, và Rick Wilder; luận án tiến sĩ của K.C.Claffy, Internet traffic
characterization, University of California, San Diego, 1994; vv
Kết quả khảo sát của NCS về những nghiên cứu này cho thấy:
- Do đặc điểm của mạng Internet là một hệ thống phân tán và hoạt động trên cơ chế phân lớp, nên cụm từ “Lưu lượng Internet” được hiểu là tập hợp của rất nhiều định nghĩa, khái niệm và đối tượng khác nhau Do đó các nghiên cứu về lưu lượng Internet rất phong phú và thường được giới hạn trong một phạm vi mạng cụ thể, một lớp nhất định trên mô hình phân lớp TCP/IP hoặc một đối tượng lưu lượng cụ thể nào đó
- Các nghiên cứu trước đây, đa phần tập trung nghiên cứu và đánh giá đặc tính lưu lượng Internet ở mức gói (hay nói cách khác đối tượng nghiên cứu là các gói IP)
Trang 13và kết quả đã xác nhận các đặc tính cụm, tự đồng dạng và có sự tương quan trong thời gian dài của chúng
- Một số nghiên cứu, bao gồm cả luận án TS của K.C.Claffy, đã khảo sát các đặc tính của lưu lượng Internet ở mức luồng, trong đó họ định nghĩa luồng lưu lượng Internet hoặc là dựa trên cơ chế làm việc của giao thức TCP (dùng cờ SYN và FIN/RESET để đánh dấu sự bắt đầu hoặc kết thúc một luồng lưu lượng), hoặc định nghĩa luồng lưu lượng tương ứng với một phiên làm việc của giao thức ứng dụng Cách định nghĩa luồng lưu lượng này chỉ hữu ích cho việc đánh giá hiệu suất hoạt động của các giao thức đầu cuối cũng như giúp định cỡ cho các hệ thống đầu cuối của mạng Internet mà thường không giúp việc đánh giá hiệu suất hoạt động hoặc các vấn đề khác của bản thân mạng Internet (hay cụ thể hơn là các bộ định tuyến hoạt động ở lớp IP)
- Trong đồ án TS của K.C.Claffy, tác giả chủ yếu nghiên cứu các đặc tính của các luồng lưu lượng Internet tổng hợp bao gồm kích thước luồng và quá trình đến
của luồng và đánh giá sự phụ thuộc của chúng vào giá trị time-out sử dụng trong
quá trình định nghĩa luồng cũng như các tham số môi trường, mà chưa đưa ra kết luận là các đặc tính này tuân theo phân bố gì và cũng chưa nghiên cứu riêng
rẽ cho từng ứng dụng trong lưu lượng tổng hợp
Như vậy có thể thấy vấn đề phân tích và đặc tính hoá các luồng lưu lượng Internet ở lớp IP còn phải được nghiên cứu và khảo sát một cách chi tiết, đặc biệt theo hướng làm rõ các đặc tính đặc trưng theo ứng dụng hoặc nhóm ứng dụng của chúng Điều này rất quan trọng trong việc tìm kiếm mô hình phân chia lưu lượng Internet một cách tự động và trong thời gian thực nhằm thay thế cho các mô hình phân chia lưu lượng dựa trên giá trị cổng ứng dụng hiện đang gặp nhiều vấn đề về
độ chính xác
2 Đối tượng, mục tiêu và phạm vi nghiên cứu của luận án
Với hiện trạng như phần trên, mục tiêu nghiên cứu của luận án là sử dụng các
mô hình phân tích và dự đoán nhằm tìm hiểu các biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP trên Internet và từ đó xây dựng mô hình cho phép tự động nhận dạng và phân chia lưu lượng thành các nhóm ứng dụng khác nhau, góp phần giải quyết thách thức mà các nhà cung cấp dịch vụ truy nhập (ISP/IXP) cũng như các nhà cung cấp nội dung (ICP) Internet hiện nay đang gặp phải Trọng tâm nghiên cứu là xác định tập các thuộc tính của luồng lưu lượng IP trên mạng đồng
Trang 14thời nhận biết các dấu hiệu phân biệt chúng với nhau Vì thế đối tượng nghiên cứu của luận án là các luồng lưu lượng IP trên Internet
Có thể tóm tắt phạm vi nghiên cứu của luận án bao gồm việc nghiên cứu giải quyết các vấn đề:
- Thu thập và xây dựng một cơ sở dữ liệu lưu lượng Internet đầy đủ và tin cậy
- Thực hiện các phân tích thống kê và mô hình hoá các luồng lưu lượng đo ở lớp IP nhằm tìm hiểu các biểu hiện hoạt động và biến thiên của chúng cũng như các đặc tính đặc trưng theo kiểu ứng dụng
- Xây dựng mô hình cho phép tự động nhận dạng với độ chính xác cao lưu lượng của các nhóm ứng dụng điển hình trên Internet nhằm thay thế cho mô hình phân chia theo giá trị cổng ứng dụng hiện đang gặp nhiểu trở ngại do có chế cấp phát động cổng ứng dụng của mạng Internet
- Đánh giá hiệu suất và độ chính xác của mô hình tìm được trên dữ liệu thực nghiệm thu thập từ mạng
Tuy nhiên do thực tế Internet là mạng thông tin toàn cầu có qui mô và số lượng ứng dụng vô cùng lớn, đồng thời trạng thái hoạt động của mạng cũng thể hiện sự biến thiên rất lớn trên nhiều mặt, như biến thiên về tải lưu lượng, biến thiên theo khu vực địa lý, biến thiên theo vùng mạng hay biến thiên theo kiểu ứng dụng, vv
Do đó việc nghiên cứu biểu hiện hoạt động của các luồng lưu lượng IP trên toàn mạng Internet là điều không thể thực hiện được Hơn nữa do điều kiện khách quan nên dữ liệu lưu lượng đo của luận án, được thu thập tại mạng ISP/IXP của công ty Thông tin viễn thông điện lực, có thể không hoàn toàn mang tính đại diện cho lưu lượng của mạng Internet toàn cầu Vì thế các kết quả nghiên cứu của luận án trước hết thể hiện các biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP trong phạm vi một mạng ISP/IXP điển hình sau đó, hy vọng phần nào, thể hiện đặc tính của mạng Internet nói chung Đồng thời mô hình nhận dạng luồng lưu lượng IP do luận án đề xuất phù hợp trước hết cho những ứng dụng của các mạng ISP/IXP
3 Phương pháp nghiên cứu của luận án
Phương pháp luận khoa học sử dụng trong luận án này là sự kết hợp giữa mô hình phân tích và các phép đo thực nghiệm Phương pháp sử dụng các mô hình phân tích có nhiều ưu điểm như khả năng kiểm soát được hoạt động của mô hình và cung cấp các chi tiết về mối quan hệ giữa các tham số đầu vào với kết quả đầu ra, tuy nhiên nó cũng có nhược điểm là thường phải sử dụng các “tóm tắt” của hệ thống ở mức cao nên đôi khi mô hình không phản ánh đúng bản chất thực tế của quá trình
Trang 15lưu lượng Do đó cần thiết phải có sự kiểm tra hoạt động của các mô hình phân tích trên dữ liệu đo thực nghiệm từ mạng thực tế
Cụ thể lưu lượng thu thập từ mạng Internet được xử lý để tạo các tệp dữ liệu luồng Các tệp dữ liệu luồng này sau đó được phân tích bằng các mô hình và phương pháp thống kê để tìm hiểu biểu hiện hoạt động và biến thiên của chúng cũng như nguyên nhân gây ra các biểu hiện đó Hai phương pháp thống kê quan
trọng được sử dụng luận án này bao gồm: (i) phương pháp đánh giá hình dạng và
dự đoán các thông số liên quan của phân bố dữ liệu thực nghiệm, như các hàm
phân bố xác suất (pdf), phân bố xác suất luỹ tích (cdf), phân bố xác suất luỹ tích bù (ccdf), đồ thị Q-Q, biểu đồ, mô hình dự đoán MLE, mô hình tổng hợp dữ liệu và (ii)
phương pháp đánh giá mức độ phù hợp giữa phân bố dữ liệu thực nghiệm với các phân bố lý thuyết (phương pháp thích hợp hoá các đường cong), như mô
hình tính toán các chỉ số thống kê SSE (Sum of Square due to Error), R2, mô hình
Trang 16kiểm tra KS (Kolmogorov-Smirnov) Chi tiết của hai phương pháp này sẽ được trình
bày trong mục 3.2.1 của chương 3
Kết quả của quá trình phân tích và mô hình hoá luồng lưu lượng IP là tập các thuộc tính đặc trưng cùng với kiểu giá trị của chúng Dựa trên tập thuộc tính này, tiến hành xây dựng các tập dữ liệu mẫu và dữ liệu kiểm tra chứa các luồng lưu lượng (thể hiện dưới dạng bản ghi các thuộc tính của nó) đã được phân loại một cách thủ công Các thuật toán học tự động của trí tuệ nhân tạo sau đó được “luyện trên các tập dữ liệu mẫu và kiểm nghiệm trên tập dữ liệu kiểm tra để tìm ra qui luật nhận dạng và phân loại luồng lượng IP Nói cách khác luận án không sử dụng một thuật toán cố định cho trước để xây dựng các bộ phân loại lưu lượng, thay vào đó các thuật toán học tự động sẽ học các qui luật phân loại trực tiếp trên dữ liệu lưu lượng thể hiện dưới dạng tập các thuộc tính đặc trưng của luồng có sự kết hợp với các mô hình lựa chọn thuộc tính đã được tác giả cải tiến cho phù hợp với bài toán nhận dạng luồng lưu lượng Chi tiết về các thuật toán này cũng như những lĩnh vực liên quan của lý thuyết học tự động được trình bày chi tiết trong phần 4.3 của chương 4 Có thể tóm tắt phương pháp nghiên cứu của luận án như lưu đồ ở trên
4 Ý nghĩa khoa học và thực tiễn của luận án
Luận án đã đề xuất và xây dựng thành công một mô hình mới cho phép nhận dạng các luồng lưu lượng của các nhóm ứng dụng trên mạng Internet bằng cách sử dụng các thuật toán học tự động của trí tuệ nhân tạo trên cơ sở tập các thuộc tính đặc trưng của các luồng lưu lượng IP Mô hình này đã cung cấp một phương thức
mang tính hệ thống và khoa học cao cho phép giải quyết các vấn đề còn tồn tại
cũng như mới nảy sinh của mạng Internet hiện nay trong việc cung cấp và giám sát các mức chất lượng của mạng Từ kết quả mô phỏng trên dữ liệu lưu lượng đo thực
nghiệm cho thấy mô hình có tính ứng dụng thực tế rất cao, chỉ cần một số hiệu
chỉnh nhỏ là có thể áp dụng trên các bộ định tuyến hoạt động trên mạng
5 Bố cục của luận án
Luận án được tổ chức bao gồm phần mở đầu, 4 chương nội dung và kết luận như sau:
Chương 1 trình bày tổng quan tình hình nghiên cứu tại Việt Nam và trên thế
giới trong lĩnh vực kỹ thuật lưu lượng mạng Internet thông qua việc khảo sát các nghiên cứu liên quan đến vấn đề của luận án
Chương 2 khảo sát các phương pháp đo lường và thu thập thông tin về lưu
lượng mạng Internet hiện có và từ đó tìm một công cụ đo lường thích hợp để thu
Trang 17thập dữ liệu lưu lượng mạng thực tế phục vụ cho các quá trình phân tích, mô hình hoá và mô phỏng tiếp theo Thực tế, NCS đã phát triển một phần mềm đo lường lưu lượng mạng riêng dựa trên thư viện các hàm bắt gói LIBPCAP cải tiến, và được đặt
tên là BKCAP Trong phần mềm này, NCS đã thực hiện một số cải tiến về vấn đề
lấy mẫu và lọc gói nhằm giảm khối lượng dữ liệu đo và đồng thời đưa ra phương pháp tổ chức dữ liệu đo bằng cơ sở dữ liệu quan hệ (SQLite) nhằm lưu trữ một lượng lớn dữ liệu đo cũng như tạo sự dễ dàng cho các phép phân tích thống kê Ngoài ra một cải tiến mới của BKCAP là nó có khả năng bắt và giải mã bất kỳ giao thức mạng và ứng dụng mới nào bằng cách định nghĩa khuôn dạng và các qui tắc
phân tích tiêu đề dưới dạng các tệp xml
Chương 3 tập trung vào quá trình phân tích thống kê các đặc tính và biểu hiện
của luồng lưu lượng IP Được bắt đầu bằng việc khảo sát các khái niệm luồng lưu lượng Internet đang được sử dụng hiện nay và trình bày định nghĩa luồng sử dụng trong luận án Phần tiếp theo của chương xác định các yếu tố và đặc tính cần phân tích của các luồng lưu lượng và bản thân các mô hình phân tích có thể Cuối cùng là
mô phỏng và đánh giá mô hình phân tích trên dữ liệu luồng tạo ra từ các gói lưu lượng thu thập được bằng phần mềm BKCAP và một số dữ liệu gói trên mạng Internet (để đảm bảo tính tổng quát) Hướng phân tích luồng ở đây được thực hiện với mục tiêu là nhằm phát hiện ra một số thuộc tính bất biến của chúng làm cơ sở cho thuật toán nhận dạng lưu lượng ứng dụng ở phần tiếp theo Một số tham số và phân bố quan trọng của các luồng lưu lượng Internet được khảo sát trong chương
này, bao gồm: phân bố khoảng thời gian giữa các thời điểm đến, phân bố kích
thước, phân bố thời lượng và tỉ lệ số lượng luồng giữa các ứng dụng, vv
Chương 4 dựa trên kết quả khảo sát và đánh giá các phương pháp phân loại
lưu lượng mạng Internet hiện có ở chương 1, đề xuất một mô hình mới cho phép nhận dạng lưu lượng của các ứng dụng trên mạng Internet Phần đầu của chương trình bày tóm tắt cơ sở lý thuyết học tự động và đánh giá khả năng áp dụng chúng vào quá trình nhận dạng lưu lượng Phần chính của chương tập trung phân tích và
mô phỏng thực nghiệm để xác định và tính toán kiểu giá trị của các thuộc tính quan trọng của các luồng lưu lượng IP như là các dấu hiệu cho phép phân biệt lưu lượng giữa các nhóm ứng dụng khác nhau Phần quan trọng tiếp theo là thiết kế một mô hình và qui trình phân loại mới bằng cách sử dụng kết hợp tập thuộc tính luồng tìm được ở trên với các thuật toán học tự động của trí tuệ nhân tạo Cuối cùng là đánh giá độ chính xác và tin cậy của mô hình phân loại cũng như hiệu suất hoạt động của chúng
Trang 18Luận án kết thúc bằng các kết luận về những kết quả nghiên cứu quan trọng
cũng như khả năng ứng dụng của chúng trong việc giải quyết các thách thức của mạng Internet hiện nay và đề xuất các hướng nghiên cứu tiếp theo trong lĩnh vực phân tích và nhận dạng lưu lượng ứng dụng Internet
Trang 19Ch−¬ng 1 TỔNG QUAN VỀ PHÂN TÍCH VÀ NHẬN DẠNG
LUỒNG LƯU LƯỢNG INTERNET
Chương này sẽ trình bày về hiện trạng và các nhu cầu cần thiết phải thực hiện phân tích và nhận dạng các luồng lưu lượng IP trên Internet, khảo sát các nghiên cứu liên quan trên thế giới và tại Việt Nam từ đó nhằm trả lời hai câu hỏi quan trọng là (i) tại sao cần phải tiến hành phân tích và nhận dạng các luồng lưu lượng
IP trên Internet? và (ii) có thể tự động nhận dạng các luồng lưu lượng IP theo kiểu ứng dụng của chúng hay không?
1.1 Nhu cầu phân tích và nhận dạng luồng lưu lượng ứng dụng Internet
Trong lĩnh vực nghiên cứu mạng Internet hiện nay, có nhiều nghiên cứu nhằm đưa ra các cơ chế, thuật toán và kỹ thuật mới cung cấp chất lượng dịch vụ (QoS)
cho các ứng dụng Tuy nhiên một lĩnh vực rất quan trọng là phương pháp giám sát
các mức chất lượng mà mạng cung cấp cho người dùng để có thể biết rõ ràng người
dùng đang nhận được mức chất lượng như thế nào lại chưa được nghiên cứu một cách hệ thống và chi tiết Việc giám sát mức chất lượng mạng cung cấp cho người dùng chỉ có thể thực hiện được thông qua việc theo dõi các biểu hiện hoạt động và biến thiên của lưu lượng mạng
Ngoài ra sự phát triển quá nhanh của mạng Internet hiện nay cả về qui mô và
số lượng ứng dụng đã làm xuất hiện nhiều vấn đề mà trước đây khi thiết kế mạng
Internet người ta đã không gặp phải, như: khả năng cung cấp chất lượng dịch vụ
(QoS), khả năng phát hiện và ngăn chặn các cuộc tấn công trên mạng, khả năng nhận dạng và chống thư rác, khả năng điều khiển truy nhập mạng đối với từng ứng dụng, mô hình hoá cơ chế chia sẻ tài nguyên giữa các ứng dụng trên mạng và dự đoán xu hướng tăng trưởng lưu lượng của từng ứng dụng hoặc loại ứng dụng Giải
quyết các vấn đề này là nhiệm vụ không đơn giản và điều kiện tiên quyết để có thể thực hiện được là phải tìm ra cơ chế hoặc mô hình cho phép tự động nhận dạng lưu lượng của từng loại ứng dụng trong các luồng lưu lượng tổng hợp vận chuyển trên Internet Hay nói cách khác cần có một giải pháp phân chia lưu lượng tổng hợp trên mạng thành các nhóm khác nhau Lưu lượng trong một nhóm là những lưu lượng có biểu hiện hoạt động và các thuộc tính thống kê tương tự nhau và do đó có đặc tính
sử dụng tài nguyên mạng gần giống nhau Từ đó có thể cung cấp nhiều mức chất lượng khác nhau bằng cách áp dụng mức ưu tiên xử lý phù hợp cho các nhóm lưu
Trang 20lượng và đương nghiên công việc giám sát mức chất lượng mà mạng cung cấp cho người dùng cũng dễ dàng hơn Đồng thời, việc nhận biết được đâu là các luồng lưu lượng bình thường và đâu là các luồng lưu lượng bất thường sẽ giúp phát hiện ra các cuộc tấn công trong mạng nếu có và đề xuất giải pháp ngăn chặn
Hay như trong một ví dụ khác về hiện tượng tắc nghẽn trong mạng Internet, nguyên nhân gây ra hiện tượng tắc nghẽn có thể là từ một trong các nguồn như: các máy chủ cung cấp nội dung trên mạng bị quá tải, các đường truy nhập có hệ số sử dụng băng thông quá cao, lỗi đường truyền hay lỗi định tuyến trong mạng đường trục, hay các ứng dụng tranh nhau chiếm dụng một tài nguyên tắc nghẽn nào đấy, vv Tuy nhiên việc xác định xem những luồng lưu lượng nào đang góp phần gây nên hiện tượng tắc nghẽn đó chỉ có thể thực hiện được nếu biết được toàn bộ thông tin định tuyến trên mạng là điều gần như không thể thực hiện được đối với Internet Hướng giải quyết khác có thể là sử dụng các mô hình dự đoán thống kê và kỹ thuật học tự động để nhận dạng các hiện tượng và thông số quan trọng nào của các luồng lưu lượng đang góp phần gây nên hiện tượng tắc nghẽn và với thông tin này các ISP
có thể thực hiện việc điều chỉnh cân bằng tải để định hướng lại một số luồng lưu lượng đi các hướng khác nhằm giảm áp lực tắc nghẽn cho điểm đang xét
Về phía người dùng, thông tin về đường đi của các luồng lưu lượng của các ứng dụng khác nhau sẽ giúp cho việc giám sát mức chất lượng mà mạng cung cấp cho họ
Phương pháp nhận dạng lưu lượng ứng dụng trên mạng Internet phổ biến hiện nay thường được thực hiện ở mức gói, theo đó các bộ định tuyến trong mạng khi nhận được một gói lưu lượng sẽ tiến hành kiểm tra một số trường trong phần tiêu đề của gói (ví dụ, cổng ứng dụng) để đưa ra các quyết định gói đó thuộc nhóm lưu lượng nào và tiếp theo áp dụng mức xử lý chuyển tiếp gói tương ứng Nhược điểm của phương pháp phân loại này là tạo ra lượng tải xử lý rất lớn cho các bộ định tuyến, đặc biệt trong các mạng tốc độ cao, do phải kiểm tra từng gói lưu lượng với rất nhiều trường tiêu đề nên sẽ làm giảm hiệu suất và tốc độ chuyển tiếp gói Ngoài
ra, thường thì các bộ định tuyến dựa vào trường ToS (Type of Service) trong phần
tiêu đề của gói IP để đưa ra quyết định phân loại, nhưng trong thực tế mạng Internet hiện nay đa phần các bộ định tuyến không hỗ trợ trường ToS hoặc nếu có hỗ trợ thì cũng chỉ trên một vùng mạng hạn chế nên gây trở ngại cho thuật toán nhận dạng lưu lượng của các ứng dụng
Tóm lại với tất cả các yêu cầu ứng dụng và thách thức công nghệ như trên, mạng Internet hiện nay cần một nghiên cứu mới mang tính tổng thể và toàn
Trang 21diện các biểu hiện hoạt động và biến thiên của các luồng IP nhằm tìm kiếm một mô hình tự động nhận dạng chúng theo các nhóm ứng dụng Trên cơ sở đó
giải quyết triệt để các vấn đề mới nảy sinh của Internet, bao gồm: cung cấp chất lượng dịch vụ, phát hiện các cuộc tấn công, điều khiển truy nhập tài nguyên hay đánh giá hiệu suất hoạt động của mạng.
1.2 Các nghiên cứu liên quan
Một trong những nghiên cứu đầu tiên về lưu lượng Internet ở mức luồng là
[33], trong nghiên cứu này các tác giả tập trung nghiên cứu cơ chế kết thúc của các
luồng lưu lượng IP bằng phương pháp thiết lập thời gian time-out thích ứng và từ đó
mô hình hoá các thông số thống kê tương ứng của các luồng lưu lượng Bằng các phép phân tích thống kê trên các tệp dữ liệu lưu lượng đo lớn các tác giả đã chứng minh rằng việc thiết lập thời gian time-out của luồng một cách thích ứng với phân
bố và tốc độ đến của các gói trong khoảng thời gian đầu của luồng sẽ cho phép đánh giá hiệu suất hoạt động của mạng chính xác hơn so với trường hợp thiết lập thời gian time-out cố định và do đó việc mô hình hoá các đại lượng của luồng lưu lượng như kích thước và thời lượng luồng cũng phản ánh đúng bản chất thực tế của lưu lượng hơn Tuy nhiên trong nghiên cứu này, mặc dù có nhắc đến, nhưng các tác giả
đã chưa khảo sát chi tiết ảnh hưởng của thời gian time-out đến quá trình đến (khởi tạo) của các luồng lượng IP
Kimberly C Claffy, Hans-Werner Braun, Kevin Thompson và G Miller
trong các nghiên cứu [9], [100] và [101] đã tiến hành khảo sát phân bố kích thước luồng lưu lượng Internet, kết quả cho thấy phần lớn các luồng lưu lượng Internet có kích thước rất bé và phần lớn số lượng gói và byte được vận chuyển trong một số ít luồng lưu lượng có kích thước lớn Đặc điểm này tồn tại trên nhiều mức tổng hợp lưu lượng khác nhau và được các tác giả gọi là hiện tượng “voi và chuột”, trong đó hình tượng con voi được ví cho những luồng lưu lượng kích thước lớn ít ỏi và chuột được ví với các luồng lưu lượng kích thước bé nhưng lại có số lượng rất lớn Thực
tế có nhiều phương pháp nhận dạng các luồng lưu lượng “voi”, nhưng một định nghĩa hay được sử dụng đó là các luồng lưu lượng có tốc độ (kích thước/thời lượng) lớn hơn 1% hệ số sử dụng liên kết
Trên một hướng nghiên cứu khác liên quan đến việc khảo sát thời lượng của
các luồng lưu lượng Internet, Nevil Brownlee và KC Claffy trong nghiên cứu [102]
đã cố gắng phân chia các luồng lưu lượng theo thời lượng của chúng, kết quả cho thấy 45% số lượng luồng có thời lượng bé hơn 2 giây và được ví với hình tượng con
Trang 22chuồn chuồn và ít hơn 2% số lượng luồng kéo dài quá 15 phút nhưng lại mang hơn 50% tổng số byte lưu lượng trên liên kết và được ví với hình tượng con rùa
Sarvotham và các cộng sự trong nghiên cứu [103] đã khảo sát tính cụm của
lưu lượng trong các luồng lưu lượng Internet, kết quả phát hiện ra có một số ít các kết nối chứa lượng lưu lượng rất lớn và họ gọi đó là các luồng lưu lượng Alpha hay nói cách khác luồng lưu lượng Alpha là các luồng có tốc độ đỉnh vượt quá một mức ngưỡng cho trước Cụ thể hơn họ nhận dạng các kết nối truyền liên tục một số lượng lớn byte trong những khoảng thời gian 500ms là luồng lưu lượng Alpha, các luồng còn lại được gọi là luồng lưu lượng Beta Kết quả cũng cho thấy các gói truyền trong các luồng lưu lượng này cũng có đặc tính cụm giống như khi xét lưu lượng Internet ở mức gói
Zhang và các cộng sự trong nghiên cứu [75] khi khảo sát các luồng lưu
lượng có độ dài trên 30 giây đã phát hiện ra rằng có sự tương quan lớn giữa kích thước và tốc độ (kích thước/thời lượng) của luồng và họ giải thích nguồn gốc của sự tương quan này là do hành vi của người dùng hay nói cách khác người dùng thường
có xu hướng truyền lượng thông tin lớn khi có nhiều băng thông Các nghiên cứu sau này cũng cho thấy đối với các luồng lưu lượng kích thước bé cũng tồn tại sự tương quan giữa kích thước và tốc độ luồng nhưng nguyên nhân thì là do các cơ chế hoạt động và điều khiển của giao thức mạng
Phương pháp phân loại lưu lượng Internet phổ biến nhất hiện nay đang
được áp dụng là sử dụng số hiệu cổng ứng dụng TCP hoặc UDP trong phần tiêu đề của gói IP Theo IANA [60] thì mỗi ứng dụng trên mạng Internet được gắn một số
cổng ứng dụng thuộc 1 trong 3 khoảng giá trị là (i) các cổng ứng dụng phổ biến
(0-1023), (ii) các cổng ứng dụng đã đăng ký (1024-49151) và các cổng ứng dụng dùng riêng (49152-65535) Tuy nhiên phương pháp này hiện nay gặp rất nhiều hạn chế
do không phải tất cả các ứng dụng trên mạng đều tuân thủ số cổng ứng dụng được cấp phát ví dụ các hacker có thể sử dụng các cổng tiêu chuẩn để gán cho các ứng dụng tấn công của họ nhằm vượt qua hệ thống tường lửa Hơn nữa hiện nay rất nhiều ứng dụng mới ra đời sử dụng những cổng ứng dụng hoàn toàn mới kết hợp với cơ chế cấp phát động cổng ứng dụng làm cho kết quả phân loại không chính xác
Trong các nghiên cứu [44] và [45] Dunigan cùng với các cộng sự đã trình
bày một phương pháp cho phép đặc tính hoá các luồng lưu lượng dựa trên phép
phân tích thống kê đa biến thiên (multi-variate) Theo đó từng gói trong luồng lưu lượng sẽ được phân loại dựa trên 3 tham số: kích thước gói, trễ so với gói trước nó
Trang 23(I.A.T) và hướng truyền của gói Hai tham số đầu được đánh giá thông qua phân bố rời rạc tương ứng của chúng, còn tham số thứ 3 được đánh giá dựa trên hướng truyền của gói và gói liền trước (tổng cộng có 4 giá trị có thể) Quá trình phân loại này đưa ra một tập hữu hạn kết quả (10 loại đối với kích thước gói x 10 loại đối với giá trị I.A.T x 4 loại đối với hướng truyền = 400 loại) và họ xem giá trị của mỗi loại
là 1 biến ngẫu nhiên thể hiện tỉ lệ phần trăm gói của một luồng nào đó là thuộc một loại cụ thể Tuy nhiên thay vì nghiên cứu từng ứng dụng mạng riêng biệt, họ tiến hành phân loại luồng một cách hệ thống hơn bằng phương pháp thống kê PCA
(Principle Component Analysis), theo đó họ áp dụng phép phân tích PCA để tìm ra
3 biến ngẫu nhiên thể hiện sự khác nhau rõ nét nhất giữa các loại luồng lưu lượng Sau đấy mỗi luồng lưu lượng có thể được mô tả chỉ bằng 3 thuộc tính tương ứng của nó, từ đó họ định nghĩa một khái niệm gọi là hồ sơ luồng lưu lượng: là hàm 3 chiều của 3 biến ngẫu nhiên dự đoán từ một số luồng cùng loại Vì thế để biết 1 luồng bất kỳ chưa được phân loại thuộc về 1 lớp nào đó, người ta tiến hành tính toán 3 thành phần (thuộc tính) quan trọng trên (gọi là PCA) của luồng, và luồng sẽ thuộc lớp nào mà giá trị PCA vừa tính có xác suất giống với hồ sơ 1 luồng thuộc lớp
đó nhất Tuy nhiên các nhà nghiên cứu đã chỉ ra rằng độ chính xác của phương pháp phân loại này không cao khi so sánh các tập dữ liệu đo khác nhau, nghĩa là tính toán
hồ sơ luồng lưu lượng trên một tập dữ liệu và sau đó áp dụng (so sánh) với các luồng của một tập dữ liệu đo khác
Trong một nghiên cứu khác về việc phát hiện các tấn công lạ trong mạng,
Lee và Stolfo trong nghiên cứu [24] đã có một khảo sát tính toán tương đối đầy đủ
trên cơ sở dữ liệu mạng DARPA [46], theo đó họ đã tìm ra được 41 thuộc tính có thể sử dụng để mô tả 1 luồng lưu lượng của một ứng dụng điển hình cụ thể Để tìm
ra 41 thuộc tính này từ chín thuộc tính cơ bản trong [47], người ta áp dụng các phương pháp xử lý dữ liệu quan hệ để tìm các mối liên hệ giữa các bản ghi luồng lưu lượng nhằm xác định các điển hình và từ đó tìm ra 41 thuộc tính luồng Bốn mốt thuộc tính này lại được chia thành ba loại khác nhau: 9 trong số đó là các thuộc tính
cơ bản của các kết nối TCP/IP (bảng 4-1), 13 là các thuộc tính liên quan đến nội dung và cuối cùng 19 là các thuộc tính thống kê của các kết nối trong quá khứ
Paxson và Zhang đã có một nghiên cứu rất quan trọng, trong đó họ đã phát
triển một thuật toán đa mục đích để nhận dạng các phiên làm việc tương tác liên quan đến hành vi người dùng bằng cách kiểm tra kích thước gói, nhãn thời gian và hướng truyền của gói, theo một bộ tiêu chuẩn cho trước
Bảng 1-1 Chín thuộc tính cơ bản của kết nối mạng theo Lee và Stolfo
Trang 24Thuộc tính Mô tả Kiểu giá trị
kiểu giao thức kiểu giao thức TCP, UDP rời rạc
dịch vụ dịch vụ mạng phía đích (HTTP, Telnet, vv ) rời rạc
số byte nguồn số lượng byte dữ liệu trao đổi giữa nguồn và đích liên tục
số byte đích số lượng byte dữ liệu trao đổi giữa đích và nguồn liên tục
cờ trạng thái của kết nối (hoạt động bình thường hoặc
Kết quả nghiên cứu cho thấy các gói dữ liệu do người dùng gõ vào từ bàn
phím có độ dài tương đối bé khoảng 20 bytes hoặc ít hơn và đồng thời do tốc độ gõ
của người dùng tương đối chậm nên trễ giữa hai gói liên tiếp dạng này nằm trong
khoảng 10-2000 ms Từ quan sát này, người ta đi xây dựng 3 dấu hiệu: (i) dấu hiệu
đánh giá tần suất xuất hiện khoảng thời gian giữa các gói (I.A.T) bé nằm trong
khoảng (10-2000)ms, (ii) dấu hiệu đánh giá tỉ lệ các gói có kích thước bé và (iii)
dấu hiệu định lượng các gói nhỏ được nhóm lại với nhau Do đó có thể nói Paxson
và Zhang đã phát triển một phương pháp nhận dạng các luồng lưu lượng tương tác,
bằng cách xây dựng và đánh giá 3 thuộc tính luồng lấy giá trị liên tục từ 0-1, giá trị
càng gần 1 càng chứng tỏ luồng lưu lượng có tính tương tác cao và một luồng lưu
lượng sẽ được phân loại là luồng tương tác nếu giá trị của cả 3 tham số trên nằm
trên một mức ngưỡng cho trước
Bảng 1-2 Các thuộc tính luồng tương tác theo Paxson và Zhang
Thuộc tính Mô tả Kiểu giá
trị
γ Dấu hiệu về tần suất xuất hiện của các gói nhỏ liên tiếp Liên tục
α Tỉ lệ thời gian giữa các thời điểm đến (I.A.T) của các gói
kích thước bé (<= 20 bytes) nằm trong khoảng (10-2000)ms Liên tục Ngoài ra Paxson và Zhang cũng đã phát triển một số các thuật toán đặc biệt
để nhận dạng các giao thức tương tác cụ thể, như: SSH, RLOGIN, TELNET, FTP,
NAPSTER (nhạc trực tuyến), vv Tuy nhiên đa phần các thuật toán này đều yêu
cầu phải truy nhập vào nội dung của gói tin, trừ thuật toán nhận dạng SSH thì ngoài
3 dấu hiệu trên còn thêm một thuộc tính khác là kích thước gói
Hernandez-Campo và các cộng sự trong khi nghiên cứu các luồng lưu
lượng TCP [48] đã cố gắng xác định tập các thông số thống kê của các kết nối TCP
Trang 25để cho phép nhóm các kết nối lại thành những nhóm liên kết thống kê Họ cũng đã
nghiên cứu theo hướng tìm hiểu các biểu hiện của lưu lượng mà không cần sử dụng
số cổng ứng dụng cũng như không cần phải phân tích nội dung các gói tin, thay vào
đó họ cố gắng phân loại lưu lượng dựa trên đặc tính sử dụng tài nguyên mạng với
mục đích là tạo ra các nhóm lưu lượng tương đương, ví dụ nhóm lưu lượng truyền
file, nhóm lưu lượng thời gian thực hay nhóm lưu lượng tương tác Ý nghĩa khoa
học lớn nhất trong hướng nghiên cứu của họ là không sử dụng đơn vị dữ liệu là gói
mà thay vào đó họ định nghĩa một đơn vị dữ liệu gọi là ADU (đơn vị dữ liệu ứng
dụng), một ADU có thể chứa vài gói dữ liệu Cụ thể họ sử dụng sự thay đổi số thứ
tự khung phát và khung phúc đáp của giao thức TCP để xác định các biên của 1
ADU Sau đó thay vì mô hình hoá kiểu trao đổi các gói trong kết nối TCP họ mô
hình hoá sự trao đổi các ADU Mỗi kết nối TCP khi đó được mô tả bằng một véc tơ
n chiều (c 1 , c 2 , , c n ) , trong đó n là số ADU của kết nối, và gọi là các epoch Mỗi
epoch c i = (a i , b i , t i ), trong đó a i là số lượng byte truyền bởi bên khởi tạo kết nối, b i
là số lượng byte truyền theo hướng ngược lại, và ti là khoảng thời gian rỗi giữa
ADU đó và ADU tiếp theo.
Bảng 1-3 Các thuộc tính sử dụng để phân chia lưu lượng theo Hernandez-Campos
a max , b max, t max Số byte và s lớn nhất của mỗi epoch Liên tục
aµ, bµ, aδ, b δ Số lượng byte trung bình và độ lệch tiêu chuẩn
của mỗi epoch
Liên tục
a 1q , b 1q đại lượng thống kê thứ nhất (first quantile) Liên tục
a 2q , b 2q đại lượng thống kê thứ hai (second quantile) Liên tục
a 3q , b 3q đại lượng thống kê thứ ba (third quantile) Liên tục
ρ1 (a 1, n , b 1 n ) Tương quan Spearman Liên tục
ρ2 (b 1, n-1 , a 1 n ) Tương quan Spearman bước 1 Liên tục
Cuối cùng họ xác định được 26 thuộc tính tổng cộng sử dụng cho quá trình
phân loại lưu lượng, như trong bảng 4-3
Andrew W.Moore và Dennis Zuev trong nghiên cứu [49] đã áp dụng một
trong các phương pháp học tự động đơn giản nhất dựa trên công thức xác suất có
điều kiện Bayes để phân loại lưu lượng Internet thành các nhóm khác nhau như:
nhóm lưu lượng cụm, nhóm lưu lượng cơ sở dữ liệu, nhóm lưu lượng tương tác,
Trang 26nhóm lưu lượng www, vv Với đầu vào là tập các thuộc tính của luồng lưu lượng TCP (tập các gói lưu lượng giữa 2 cờ SYN/RESET và FIN), họ áp dụng công thức Bayes như sau:
( ) ( | ) ( | )
điều kiện này có ưu điểm là đơn giản dễ thực hiện, tuy nhiên nhược điểm lớn nhất của nó là độ chính xác phân loại không cao
1.3 Kết luận về vấn đề nghiên cứu của luận án
Qua khảo sát các nghiên cứu liên quan ở trên có thể thấy, trong lĩnh vực nghiên cứu đặc tính hoá lưu lượng Internet, đa phần các nghiên cứu chỉ mới khảo sát đặc tính lưu lượng ở mức gói như phân bố kích thước gói, phân bố thời điểm đến của các gói và đặc tính cụm của chúng Một số nghiên cứu ban đầu về đặc tính lưu lượng ở mức luồng thì đa phần chỉ khảo sát các luồng lưu lượng của các phiên làm việc (mức ứng dụng) trên Internet và tập trung đánh giá về hai thông số là kích thước và thời lượng luồng Trong khi đó một phần quan trọng ảnh hưởng lớn đến
hiệu suất hoạt động của mạng là đặc tính và biểu hiện biến thiên của các luồng lưu lượng IP, đặc biệt là phân bố khoảng thời gian giữa các thời điểm đến (I.A.T) của chúng, lại chưa có một nghiên cứu và khảo sát chi tiết nào được thực
hiện
Về mô hình nhận dạng và phân loại lưu lượng Internet thì các phương pháp hiện có hoặc sử dụng số hiệu cổng ứng dụng trong phần tiêu đề của gói lưu lượng hoặc sử dụng các đặc thù của giao thức ứng dụng hoặc tiên tiến hơn là sử dụng một
số đặc tính thống kê đơn giản của luồng lưu lượng và phiên làm việc trên Internet Với sự phát triển của mạng Internet như hiện nay thì các phương pháp này bộc lộ
hai nhược điểm lớn là độ chính xác thấp do cơ chế cấp phát cổng ứng dụng động
và hiệu suất hoạt động của mô hình nhận dạng không cao do chúng tiêu thụ
nhiều tài nguyên của nút mạng và thời gian nhận dạng lâu vì thế không thể áp dụng cho các ứng dụng thời gian thực
Qua nghiên cứu của mình NCS nhận thấy một hướng khả quan là sử dụng kết quả phân tích biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP trên Internet để xác định các thuộc tính đặc trưng của chúng theo từng loại ứng dụng và
Trang 27sử dụng các thuộc tính đặc trưng này làm dấu hiệu nhận biết lưu lượng của một loại ứng dụng nào đó
Do đó, trong phạm vi luận án, nghiên cứu sinh đã xác định và tập trung giải quyết hai vấn đề sau đây:
- Thực hiện khảo sát và phân tích các biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP, đặc biệt là phân bố khoảng thời gian giữa các thời điểm đến (I.A.T) của chúng
- Và từ đó tính toán tập thuộc tính đặc trưng của chúng Các thuộc tính này được phân tích và tính toán theo hướng nhận biết các dấu hiệu đặc trưng lưu lượng của các nhóm ứng dụng trên mạng Internet Trên cơ sở các dấu hiệu này tự động hoá quá trình nhận dạng và phân loại (luồng) lưu lượng Internet bằng cách áp
dụng các kỹ thuật học tự động của trí tuệ nhân tạo
Tuy nhiên để có thể áp dụng các mô hình phân tích thống kê và thuật toán nhận dạng tự động vào việc giải quyết các vấn đề nêu trên thì việc đầu tiên cần phải thực hiện là thu thập dữ liệu lưu lượng thực tế Để đảm bảo các kết quả phân tích cũng như nhận dạng ứng dụng đạt độ chính xác cao và mang tính tổng quát thì dữ liệu lưu lượng sử dụng trong phép phân tích phải đủ lớn, trên hai khía cạnh là (i) chứa lưu lượng của phần lớn các ứng dụng trên mạng Internet và (ii) phải là lưu lượng có tính đại diện cao cho mạng Internet và được thu thập trên một khoảng thời gian tương đối dài Để làm được điều này, với đặc điểm về sự đa dạng của các ứng dụng
cũng như qui mô rất lớn của mạng Internet, yêu cầu phải có các phương pháp và
kỹ thuật đặc biệt như: kỹ thuật nén dữ liệu đo, tổ chức lưu trữ một lượng lớn
dữ liệu lưu lượng và phương pháp xử lý chúng Đây thật sự là một thách thức rất lớn của các hệ thống đo lường và giám sát mạng Internet hiện nay và do đó giải quyết chúng cũng là một trong các mục tiêu nghiên cứu của luận án này
Trang 28Ch−¬ng 2 ĐO LƯỜNG VÀ LẤY MẪU LƯU LƯỢNG
INTERNET
2.1 Giới thiệu chung
Có rất nhiều lý do phải thực hiện thu thập lưu lượng Internet và đo lường các thông số liên quan của nó, tuy nhiên có thể tóm tắt 3 mục tiêu chính là (i) để phục
vụ việc nghiên cứu đặc tính và sự biến thiên của lưu lượng, (ii) giám sát hiệu suất hoạt động và chất lượng dịch vụ của mạng và (iii) điều khiển truy nhập tài nguyên
và cung cấp chất lượng dịch vụ (QoS) mạng Hai mục tiêu sau liên quan chặt chẽ với nhau và chỉ khác nhau trên phương diện thang thời gian của phép đo Bảng 2-1 dưới đây trình bày các phép đo điển hình trong mạng Internet và ứng dụng tương ứng của chúng
Bảng 2-1 Một số phép đo điển hình trên mạng Internet
Tỉ lệ mất gói Khả năng kết nối Hiệu suất kết nối Giám sát định tuyến Phân bố kích thước gói, luồng, phiên làm việc
Phân bố thời điểm đến của các gói, luồng lưu lượng
Qui hoạch dung lượng Tối ưu hoá mạng Khai thác mạng Cung cấp chất lượng dịch vụ Cung cấp các dịch vụ giá trị gia tăng
Dự đoán xu hướng phát triển của lưu lượng
Điều khiển truy nhập mạng Tính cước
Người dùng Băng thông sẵn sàng
Thời gian đáp ứng
Tỉ lệ mất gói Khả năng kết nối Tốc độ kết nối Chất lượng dịch vụ Hiệu suất ứng dụng
Giám sát hiệu suất
Kế hoạch nâng cấp (ứng dụng) Thoả thuận mức dịch vụ Thiết lập mức chất lượng Tối ưu hoá việc phân phát nội dung Lập kế hoạch sử dụng
Phân IAT gói, luồng và phiên làm việc
Cải thiện thiết kế và cấu hình thiết bị
Cho phép giải quyết sự cố thiết
bị thời gian thực
Trang 29Một cách tóm tắt, có thể phân loại các thông số cần đo của mạng Internet thành
4 nhóm như sau:
(i) Các thông số đo lường hệ số sử dụng mạng, bao gồm: số lượng gói, số lượng
byte, lưu lượng đỉnh, phân bố lưu lượng giữa các ứng dụng và giao thức (ii) Các thông số đo lường hiệu suất, như: RTT (trên các lớp khác nhau), tỉ lệ
huỷ gói, hay tỉ lệ gói va chạm trong các mạng cấu hình bus
(iii) Các thông số về độ sẵn sàng, bao gồm độ sẵn sàng đường đi, độ sẵn sàng của
liên kết và độ sẵn sàng của ứng dụng
(iv) Và cuối cùng là các thông số đo lường độ ổn định, bao gồm: tốc độ thay đổi
trạng thái đường truyền, bảng định tuyến, vv
Để thực hiện đo các thông số này người ta đã đưa ra nhiều phương pháp và kỹ thuật đo khác nhau, nhưng nhìn chung có thể chia thành hai phương pháp chính là:
- Đo lường chủ động
- Và đo lường thụ động
Đo lường chủ động thực hiện gửi dữ liệu, có thể là dữ liệu ứng dụng hoặc dữ
liệu thăm dò, từ một điểm đến một hoặc nhiều đích khác nhau sau đó bắt lại các gói thăm dò tại đầu kia hoặc các gói phản hồi trở lại để xác định phản ứng của mạng lên lưu lượng thăm dò và từ đó tính được trễ truyền đến nút đích tương ứng, RTT hoặc
tỉ lệ mất gói Phương pháp này có ưu điểm là dễ thực hiện tuy nhiên lại có nhược điểm là tạo ra lượng tải không cần thiết (lưu lượng thăm dò) trên mạng và các phần
tử mạng và đôi khi cho kết quả không chính xác hoặc thậm chí là không thể tiến hành được do các phần tử mạng có thể không hỗ trợ lưu lượng thăm dò hoặc có thể huỷ lưu lượng thăm dò khi tình trạng tải của nó cao, vv
Đo lường thụ động không gửi lưu lượng thăm dò vào mạng mà tiến hành bắt
lưu lượng thực của mạng tại các nút hay liên kết trên mạng để phân tích tìm ra các thông số cần đo như tốc độ phát gói của các ứng dụng hoặc nút mạng, đặc tính và phân bố lưu lượng trên mạng theo thời gian hay không gian, vv Ưu điểm của phương pháp đo này là không tạo ra lưu lượng vô ích trên mạng, tuy nhiên nhược điểm là yêu cầu hệ thống đo lường phải có khả năng lưu trữ và xử lý một lượng lớn
dữ liệu và với tốc độ cao Hơn nữa nhiều khi do chính sách bảo mật mà các nhà khai thác mạng không cho phép thực hiện các phép đo thụ động này
Qua đó có thể thấy đo lường chủ động thường được sử dụng cho các mục đích cần xác định các thông số hiệu suất của mạng như trễ truyền gói, RTT (trễ truyền hai chiều), tỉ lệ mất gói, vv còn đo lường thụ động lại phù hợp hơn cho các mục đích giám sát mạng trong đó người ta quan tâm đến việc quan sát các biểu hiện
Trang 30và trạng thái biến thiên của tải lưu lượng trên mạng cũng như đảm bảo rằng mạng đang cung cấp các mức chất lượng và hiệu suất định trước
Mục tiêu đặt ra của luận án này là tìm hiểu các biểu hiện biến thiên của lưu lượng ứng dụng trên mạng Internet ở mức luồng và từ đó xây dựng các mô hình phân tích và phân loại lưu lượng thành các nhóm ứng dụng có đặc tính lưu lượng
tương tự nhau, do đó phương pháp đo lường sử dụng ở đây là đo lường thụ động
nhằm thu thập các gói lưu lượng vận chuyển qua điểm quan sát và các thông số liên quan của chúng
Vì thế phần tiếp theo của chương này sẽ trình bày các chi tiết kỹ thuật đo lường thụ động cũng như những vấn đề liên quan của nó Tuy nhiên trong báo cáo chuyên đề lần thứ 2 trong khuôn khổ luận án NCS đã khảo sát một cách chi tiết và đầy đủ về các phương pháp, kỹ thuật và công cụ đo lường chủ động lưu lượng Internet [1]
2.2 Đo lường thụ động
Như đã nói ở trên kỹ thuật đo lường thụ động thực hiện bắt các gói lưu lượng ứng dụng truyền trên mạng Internet qua điểm đo và lưu trữ lại dưới một định dạng nào đó (thường dưới dạng nhị phân) Đặc điểm của đo lường thụ động là nó không làm ảnh hưởng đến hoạt động của mạng do không yêu cầu phát lưu lượng thăm dò, tuy nhiên khó khăn là lượng dữ liệu đo là rất lớn Ví dụ, một kết nối 155Mbps với
hệ số sử dụng trung bình ~80Mbps và giả thiết kích thước gói trung bình là 750 byte, khi đó sẽ có khoảng 13000 gói/s hay nói cách khác thời gian đo kéo dài 1s sẽ tạo lượng dữ liệu là ~10MB Với dung lượng của các đĩa cứng hiệu suất cao hiện nay, ví dụ 40 GB, sẽ chỉ có thể lưu được dữ liệu đo trong 1 giờ Giải pháp khắc phục đơn giản nhất là chỉ lưu phần tiêu đề IP và tiêu đề giao thức vận chuyển (khoảng 40 byte/gói), lượng dữ liệu đo khi đó chỉ còn ~0,5 MB/s và vì thế cũng với đĩa cứng ở trên sẽ có thể lưu trữ dữ liệu đo trong 18 giờ
Ngoài ra thì dữ liệu đo thường có rất nhiều thông tin trùng lặp và không phải tất cả thông tin bắt được đều cần thiết, do đó khi chuẩn bị phép đo cần xác định trước những thông tin nào cần thu thập và thực hiện các biện pháp lọc và nén dữ liệu để loại bỏ các thông tin không cần thiết Nếu so sánh với việc đo lường trong các mạng chuyển mạch kênh truyền thống sẽ thấy có sự khác nhau rõ ràng ở đây: để lưu trữ các thông tin quan trọng của 1 cuộc điện thoại chỉ cần không gian lưu trữ
200 byte là đủ, tương ứng với độ dài cuộc thoại 25ms với tốc độ 64 kbps Nếu cuộc gọi có độ dài 3 phút (cuộc gọi điển hình) thì bản tin lưu trữ chỉ bằng 0,01% luồng
Trang 31lưu lượng dữ liệu Trong các mạng dữ liệu thì phần thông tin tiêu đề của gói dữ liệu chỉ bằng 5% kích thước gói (40/750), do đó việc chỉ ghi lại phần tiêu đề của gói là một trong các phương pháp nén dữ liệu đo hiệu quả
Thực tế hiện nay có khá nhiều công cụ cho phép thu thập gói lưu lượng Internet được phát triển với các mục đích khác nhau như phân tích và hiệu chỉnh các giao thức mạng, phục vụ quá trình tính cước/thống kê, hay phức tạp hơn là nhằm phát hiện và ngăn chặn các vụ tấn công mạng Các công cụ này hoặc được thực hiện bằng phần mềm, phần cứng hoặc kết hợp cả hai Ví dụ, có thể sử dụng các thiết bị kiểm tra đường truyền hay thiết bị phân tích giao thức để đo lường lỗi đường truyền cũng như lỗi gói trong thời gian thực, hoặc sử dụng các công cụ phần mềm như TCPDUMP để quan sát các gói IP trên mạng LAN
Theo khảo sát của NCS cũng như đánh giá của các dự án nghiên cứu khác, điểm chung của các công cụ sẵn có là phần lớn trong số chúng là các phần mềm mã nguồn mở với độ ổn định rất kém, không có nhiều lựa chọn đối với thuật toán bắt gói, không có hoặc chỉ có thuật toán lấy mẫu đơn giản, không có khả năng bắt một lượng gói lớn và trên các liên kết mạng tốc độ cao, không có khả năng phân tích thống kê lưu lượng bắt được, vv Những công cụ tốt và hiệu suất cao thì lại đa phần là các sản phẩm thương mại hoá như NetFlow của hãng Cisco, thiết bị Endance của công ty Endance, vv Phụ lục B của luận án trình bày tóm tắt một số công cụ bắt gói và phân tích lưu lượng Internet quan trọng hiện có và các đặc điểm ứng dụng chính của chúng
Nói cách khác, theo khảo sát của NCS, các công cụ mã nguồn mở hiện không đáp ứng được các yêu cầu đặt ra trong việc thu thập lưu lượng gói mạng Internet
của luận án này, xét trên các mặt về độ ổn định, số lượng gói bắt được, khả năng
giải mã nhiều giao thức mạng, khả năng tổ chức lưu lượng đo dưới dạng cơ sở dữ liệu quan hệ hay khả năng phân tích thống kê Để giải quyết thách thức này NCS đã phát triển một phần mềm bắt gói và phân tích lưu lượng Internet dựa trên chuẩn thư
viện bắt gói LIBPCAP, gọi là BKCAP Cùng với các kết quả khác, thì đây cũng là
một trong những đóng góp (mặc dù chỉ là các cải tiến mang tính thực hiện nhiều hơn là tính hàn lâm) của tác giả trong lĩnh vực đo lường lưu lượng Internet
Nhưng trước hết phần tiếp theo sẽ giới thiệu tóm tắt khảo sát của nghiên cứu sinh về các phương pháp và mô hình đo lường thụ động đang được nghiên cứu và
sử dụng hiện nay cũng như các thách thức và tồn tại của chúng
Trang 322.2.1 Khảo sát các phương pháp và ứng dụng đo lường thụ động
Phần này trình bày một cách tóm tắt các kỹ thuật đo lường thụ động quan trọng liên quan trực tiếp đến việc giải quyết các vấn đề của luận án Chi tiết về các khía cạnh khác của kỹ thuật đo lường mạng Internet có thể tham khảo thêm tại [1], [20], [69-74], [76-93]
2.2.1.1 Tiến trình bắt giữ gói lưu lượng
Trong kỹ thuật đo lường thụ động thì tiến trình quan trọng nhất là bắt giữ các gói lưu lượng truyền trong mạng và phương pháp bắt giữ gói nhìn chung phụ thuộc vào công nghệ mạng sử dụng Trong các mạng dùng chung như Ethernet (IEEE 802.3) có thể thực hiện việc này tương đối dễ dàng bằng cách thiết lập cấu hình card
giao tiếp mạng (NIC) để nó hoạt động ở chế độ “promiscuous” cho phép chuyển tất
cả các gói nhìn thấy trong mạng cho hệ điều hành xử lý (ở chế độ bình thường NIC chỉ chuyển những gói nào có điạ chỉ MAC đích trùng với địa chỉ MAC của nó hoặc các gói phát quảng bá cho hệ điều hành) Trong trường hợp công nghệ mạng sử
dụng là các giao thức điểm-đến-điểm như ATM, Ethernet tốc độ cao hay các đường
nối trực tiếp, thì phương pháp bắt dữ liệu phong phú hơn Một trong các cách đó là thiết lập cấu hình thiết bị mạng (các bộ chuyển mạch lớp 2) để chúng chuyển tiếp các gói nhìn thấy ở một cổng đến cổng nối với thiết bị đo để ghi lại, tuy nhiên phương pháp này sẽ tạo ra một lượng Jitter nhất định cho các gói đo Cách khác là
“quan sát” thụ động, ví dụ dữ liệu truyền trên các liên kết cáp quang có thể được nhân đôi bằng các bộ chia tách quang mà thực chất là chuyển hướng một phần công suất tín hiệu ánh sáng sang một sợi quang khác dẫn đến thiết bị đo Vì thiết bị chia tách quang này hoàn toàn hoạt động ở chế độ thụ động nên phép đo sẽ không làm ảnh hưởng gì đến hoạt động bình thường của mạng nếu như năng lượng quang sau khi chia tách còn đủ lớn Phương pháp này cũng có thể được áp dụng cho các liên kết truyền dữ liệu dưới dạng tín hiệu điện, tuy nhiên với những liên kết tốc độ cao thì nó có thể gây ảnh hưởng đến hoạt động của mạng vì thiết bị đo có thể làm thay đổi đặc tính điện của liên kết do không phối hợp trở kháng
Một phương pháp bắt dữ liệu khác là sử dụng các thiết bị đo kiểu “xuyên qua” trong đó liên kết sẽ được kết nối với thiết bị đo, thiết bị trong khi bắt gói cũng đồng thời nhân đôi gói ra liên kết đầu ra một cách nguyên vẹn Tuy nhiên trong trường hợp nếu thiết bị đo không hoạt động tốt có thể làm méo dạng tín hiệu lưu lượng truyền trên mạng Dữ liệu bắt ở đây có thể là toàn bộ lưu lượng truyền qua hoặc theo hình thức lấy mẫu [3], biện pháp lấy mẫu thường hay được sử dụng trong các
Trang 33phép đo vì nhiều lý do, như: nó kinh tế hơn, đáp ứng về thời gian tốt hơn, giảm kích thước tập dữ liệu đo, hay chỉ đơn thuần là do không có khả năng truy xuất đến toàn
bộ lưu lượng mạng, vv Tuy nhiên lấy mẫu cũng gây ra vấn đề về độ chính xác của
dữ liệu đo Theo [3], một kỹ thuật lấy mẫu lý tưởng phải có các đặc điểm sau:
- Việc lựa chọn các khung lưu lượng để bắt giữ phải đảm bảo tính ngẫu nhiên, không thiên vị hay bỏ qua bất kỳ loại lưu lượng nào
- Việc chọn các khung lưu lượng phải trên cơ sở càng nhiều càng tốt mà không làm ảnh hưởng đến các nhiệm vụ quan trọng khác
- Tạo ra một lượng tải xử lý tối thiểu đối với thiết bị đo
Thực tế cho thấy lấy mẫu là một trong những bước quan trọng của quá trình đo lường thụ động nên luận án sẽ dành phần 2.3 trong chương này để trình bày thêm về các kỹ thuật lấy mẫu lưu lượng Internet
2.2.1.2 Tiến trình phân tích thô dữ liệu gói bắt được
Các phép phân tích ban đầu đối với dữ liệu đo thường được thực hiện nhằm xác định các thuộc tính thống kê cơ bản của lưu lượng, như: phân bố số lượng gói/luồng trong khoảng thời gian cho trước hay phân bố kích thước gói/luồng, vv
và các thông số liên quan của phân bố như giá trị trung bình, giá trị trung tâm, độ lệch tiêu chuẩn, vv Mặc dù hình dạng của phân bố giả định của các tham số mạng cần quan tâm trong phép đo chưa biết, nhưng bằng Định lý giới hạn trung tâm
(Central Limit Theorem), hoàn toàn có thể nhận dạng được một số dịch chuyển
đáng kể của phân bố Và cho dù hình dạng phân bố của các tham số thế nào thì giá trị kỳ vọng của các mẫu lưu lượng đo thực cũng sẽ tiếp cận kỳ vọng của phân bố và
độ lệch tiêu chuẩn của chúng cũng sẽ tiếp cận độ lệch tiêu chuẩn của phân bố giả định chia cho căn bậc hai của kích thước mẫu Các thông số thống kê đó có thể dễ
dàng tính được dựa trên 3 giá trị của phép đo là số lượng mẫu, tổng giá trị và tổng
bình phương của các mẫu
Tuy nhiên do lưu lượng mạng thường thay đổi theo định kỳ, nên trị số “tiêu chuẩn” của các thông số lưu lượng cũng sẽ thay đổi theo, có thể khắc phục hiện tượng này bằng cách sử dụng các cửa sổ quan sát Các tác giả trong [3] đề xuất sử
dụng “cửa sổ thời gian cố định lấy mẫu ngẫu nhiên” vì nó không yêu cầu lưu trữ tất
cả các gói trong khoảng thời gian của cửa sổ
Các mức lưu lượng trong mạng chuyển mạch gói như Internet thường được
đo trên các thang thời gian tương đối dài (15-30 phút) so với kích thước cụm lưu lượng, nếu thang thời gian ngắn hơn thì lượng dữ liệu đo sẽ rất lớn và đôi khi phần
Trang 34mềm hoặc thiết bị đo không đáp ứng được Các tác giả trong nghiên cứu [2] đã trình
bày một số mô tả thống kê của lưu lượng đo, như: PMR (tỉ lệ giá trị đỉnh/trị trung bình), CSQ (bình phương hệ số biến thiên), D c (lượng tương quan), IDC (chỉ số phân tán của các bộ đếm các thông số liên quan đến lưu lượng đo), P (mức độ đỉnh)
và tham số H (Hurst) Ba thông số đầu tiên (PMR, CSQ, Dc) được xem là các tham
số đo lường thực tế và người ta cũng đã nghiên cứu thêm về chúng với các dữ liệu
đo được từ mạng Ethernet (6 tệp dữ liệu, với 100000 gói/tệp) và mạng báo hiệu ISDN (với 5 dòng dữ liệu), kết quả cho thấy rằng nếu chọn được thang thời gian thích hợp thì thông số PMR có thể cung cấp thông tin về sự thiếu hụt băng thông
Các tác giả trong [3] đã tiến hành nghiên cứu đặc tính tự tương quan của trễ xếp hàng trên các dữ liệu đo của mạng Ethernet và mạng ISDN, kết quả cho thấy
mô hình GI/G/1 là phù hợp nhất cho việc mô tả dữ liệu đo Các tác giả cũng tiến hành so sánh trễ trung bình trong các trường hợp hệ số sử dụng khác nhau, khi hệ số
sử dụng >0,5 thì hai đường cong GI/G/1 và dữ liệu đo biến đổi khác nhau Khi xáo trộn một cách ngẫu nhiên tập dữ liệu đo nhằm triệt tiêu sự tương quan nhưng vẫn
duy trì phân bố biên (marginal) thì kết quả cho thấy đường cong phân bố dữ liệu đo
phù hợp vời đường cong GI/G/1 Tiếp theo đó các tác giả lại chia dữ liệu đo thành các khối có kích thước cố định từ 10-100 gói/khối nhằm duy trì được các cụm lưu lượng cục bộ, với kích thước khối là 15 gói các tác giả tiến hành xáo trộn các khối nhưng giữ nguyên thứ tự các gói trong từng khối, kết quả cho thấy trễ xếp hàng thay đổi so với dữ liệu đo gốc Tuy nhiên nếu xáo trộn cục bộ các khối (nghĩa là giữ nguyên thứ tự các khối nhưng thay đổi thứ tự các gói trong từng khối) thì dữ liệu đo cho thấy sự tương quan thời gian dài và phù hợp với dữ liệu đo gốc trên khía cạnh
trễ xếp hàng, do đó mô hình FBM (Fractional Brownian Motion) là phù hợp với dữ
liệu đo trừ trường hợp thang thời gian ~10ms thì hiện tượng phụ thuộc thời gian ngắn là phổ biến Đồng thời do sự giới hạn về độ dài của dữ liệu đo nên phân bố chiều dài hàng đợi của dữ liệu đo đối với các giá trị lớn suy giảm nhanh hơn so với
mô hình
Tóm lại các kết quả nghiên cứu trên cho thấy nếu mục đích nghiên cứu là phân tích và đánh giá các biểu hiện hoạt động và hiệu suất của mạng thì việc đo lường và phân tích dữ liệu đo tại các thang thời gian thấp là không cần thiết Các thang thời gian thấp (xấp xĩ giá trị RTT) chỉ phù hợp cho việc phân tích và dự đoán tham số H là tham số phản ánh mức độ co cụm của lưu lượng hoặc hiện tượng phân
bố vệt dài của các thông số lưu lượng tương ứng
Trang 35Nghiên cứu [5] lại đề xuất phương pháp phân tích lưu lượng đo trong miền tần số, theo đó có thể chia lưu lượng thành 3 loại khác nhau, bao gồm: (i) loại tần số
thấp (|ω|≤ωL), (ii) loại tần số cao (|ω|≥ωH) và (iii) loại tần số trung bình
(ωL≤|ω|≤ωH) Kết quả nghiên cứu cho thấy tốc độ đỉnh của lưu lượng tần số thấp sẽ
xác định băng thông của liên kết trong khi việc nhớ đệm sẽ có ảnh hưởng nhiều đến lưu lượng tần số cao, do đó việc lựa chọn đúng các tần số ωL và ωH sẽ giúp ích nhiều cho công việc đo lường và phân tích lưu lượng mạng thức tế
2.2.1.3 Đo lường mạng đường trục
Các tác giả trong [6] đã tiến hành đo lưu lượng của kết nối giữa các mạng
LAN với nhau sử dụng công nghệ mạng WAN DQDB (Distributed Queuing Dual
Bus) trong thời gian 4 giờ (từ 11:00 – 15:00) của ngày làm việc Kết quả đo một lần
nữa xác nhận các kết luận của nghiên cứu trước đây trong [7] về tính tự đồng dạng
và có sự tương quan trong thời gian dài của lưu lượng Ngoài ra các tác giả còn tiến hành tính chỉ số phân tán IDC của dữ liệu đo (phần lớn là TCP/IP), kết quả cho thấy
tiến trình 2s-MMPP (two-stage Markov Modulated Poisson Process) là thích hợp cho việc phân tích dữ liệu đo ở thang thời gian ngắn còn mô hình FGN (Fractional
Gaussian Noise) là phù hợp cho quá trình phân tích ở các thang thời gian dài hơn
Một dự án nghiên cứu khác đó là [8] đã tiến hành thu thập lưu lượng mạng đường trục NSFNET của Mỹ và đánh giá tổng lưu lượng đo được, xu hướng biến đổi của nó cũng như phân bố lưu lượng theo từng giao thức Kết quả cho thấy sự biến thiên hàng ngày của kích thước gói sẽ tương ứng với hệ số sử dụng khi các ứng dụng truyền lưu lượng theo dạng từng khối một (như FTP) và hoạt động vào các giờ không bận Tuy nhiên họ cũng không thấy có sự xuất hiện của một qui luật biến thiên nhất định đối với thông số kích thước gói lưu lượng trên các thang thời gian dài Ngoài ra kết quả phân tích cũng cho thấy chỉ một số ít hệ thống trong mạng (31 trên tổng số 4254 mạng, hay 0.7%) đóng góp 1/2 tổng lưu lượng và 118 hệ thống (2,8%) nhận khoảng 50% lưu lượng, và 46,9% lưu lượng được trao đổi giữa 1500 cặp hệ thống (0,28% trên tổng số 560048 cặp có thể)
Các tác giả trong [9] đã nghiên cứu về cơ chế thiết lập thời gian time-out trong
việc định nghĩa luồng lưu lượng Internet Theo truyền thống người ta hay định nghĩa luồng lưu lượng TCP là tập các gói lưu lượng truyền giữa hai gói SYN (thiết lập kết nối TCP) và gói FIN (kết thúc kết nối TCP), tuy nhiên định nghĩa này không khả thi trong trường hợp đo lường các mạng lõi, vì những lý do sau:
- Thiết bị đo có thể huỷ đi một số gói nhất định
Trang 36- Một trong các trạm đầu cuối (của kết nối TCP) có thể gặp sự cố (hệ thống bị khởi tạo lại hoặc kết nối mạng của nó bị đứt) nên nó sẽ không bao giờ gửi đi gói FIN
- Đường đi của kết nối (TCP) có thể bị thay đổi do đó phần còn lại của luồng
sẽ không còn nhìn thấy tại điểm đo nữa
- Hơn nữa cơ chế SYN/FIN chỉ có thể áp dụng với các luồng lưu lượng TCP, còn đối với lưu lượng UDP thì không thể biết được điểm bắt đầu và kết thúc của một luồng lưu lượng
Ngoài ra một định nghĩa luồng lưu lượng Internet cũng được sử dụng khá phổ biến đó là một dòng các gói truyền theo cả hai chiều [10] với một số tham số chung xác định trước, ví dụ cùng chung địa chỉ IP nguồn/đích và số hiệu cổng ứng dụng chẳng hạn Tuy nhiên, trong nghiên cứu trên dữ liệu đo có thời lượng 1 giờ của mạng đường trục NSFNET và một số mạng đô thị khác, ngoài các tham số chung
trên các tác giả còn đưa vào thông số khác là thời gian time-out, là khoảng thời gian
lớn nhất giữa 2 gói liên tiếp được xem là trong cùng một luồng Trong nghiên cứu
này các tác giả đã thử các giá trị time-out từ 2s - 2048s Kết quả cho thấy một số
giao thức ứng dụng như DNS và FTP không bị ảnh hưởng bởi việc lựa chọn giá trị
time-out, trong khi những ứng dụng khác như Telnet lại bị ảnh hưởng rất lớn Vấn
đề định nghĩa luồng lưu lượng sẽ được phân tích chi tiết trong chương 3 của luận
án
Một nghiên cứu khác về lưu lượng mạng đường trục đó là [11], các tác giả đã đo
lường lưu lượng mạng vBNS/Mỹ với thiết bị đo OC3MON và tiến hành phân tích
phân bố kích thước gói, đặc tính luồng lưu lượng cũng như phân bố lưu lượng theo từng giao thức Tuy nhiên do hạn chế của thiết bị đo OC3MON nên các luồng lưu lượng trong phép đo này thường bị kết thúc một cách cưỡng ép sau các khoảng thời gian 1 giờ, do đó làm ảnh hưởng đến các số liệu thống kê của các luồng lưu lượng dài như trong các ứng dụng multicast
2.2.1.4 Đo lường mạng nội bộ
Cũng đã có rất nhiều nghiên cứu thực hiện việc đo lường lưu lượng và các thuộc tính của chúng trong các mạng nội bộ (LAN) Một số nghiên cứu điển hình, như trong nghiên cứu [12] người ta đã thực hiện đo lường tải lưu lượng tổng hợp của các phiên làm việc trong 1 mạng nội bộ bao gồm các phiên đăng nhập mạng (nội bộ và từ xa) hay các phiên truy nhập ổ cứng mạng (nội bộ và từ xa) Từ kết quả
đo lường các tác giả đã ghi lại thời gian đáp ứng, khả thông và hệ số sử dụng các tài
Trang 37nguyên dùng chung, theo đó đã phát hiện ra các điểm thắt cổ chai và đề xuất các biện pháp cải thiện hiệu suất hoạt động của mạng Một nghiên cứu khác là [13] đã
tiến hành thu thập lưu lượng mạng LAN trong vòng 5h bằng công cụ Tcpdump và
tiến hành phân tích dữ liệu đo để đặc tính hoá các ứng dụng khác nhau, kết quả phân tích bao gồm tốc độ (lưu lượng) trung bình trong từng phút, tỉ lệ phần trăm lưu lượng của từng giao thức ứng dụng và phân bố kích thước gói trên mạng
Cuối cùng nghiên cứu [14] đã tiến hành đo lường mạng Ethernet đường trục tại ĐH Florida/Mỹ, kết quả đo lường cho thấy tải lưu lượng mạng (hay hệ số sử dụng mạng) là khoảng 3,7%; 4,3%; và 6,9% trên các khoảng thời gian tương ứng: giờ bận, 30 phút và 10 phút Ngoài ra các tác giả cũng đã phân loại lưu lượng trong từng giờ thành 5 loại khác nhau tuỳ theo độ lớn của lưu lượng và cuối cùng phân bố kích thước gói được phát hiện là không đổi trong những khoảng thời gian 24h với kích thước trung bình là 138,6 byte
2.2.1.5 Đo lường mạng quay số (Dial-up và ADSL)
Trong [15] người ta đã trình bày nghiên cứu đo lường các cuộc gọi số liệu theo kiểu quay số trong vòng 30 ngày với tổng số cuộc gọi là 500 000 Trong phép đo này người ta tiến hành ghi lại những tham số sau của từng cuộc gọi:
• Thời điểm bắt đầu cuộc gọi
• Thời gian duy trì cuộc gọi
• Tổng số byte và gói thông tin truyền từ 1 người dùng đến mạng
• Và tổng số byte và gói thông tin truyền từ mạng đến 1 người dùng
Tuỳ theo kích thước trung bình của các gói truyền từ mạng đến người dùng, các tác giả đã phân loại các cuộc gọi thành 2 loại A và B Quan sát cho thấy thời gian duy trì cuộc gọi của các cuộc gọi thuộc loại A là khoảng 300s còn của loại B khoảng 1700s, ngoài ra kết quả cũng cho thấy tốc độ bit từ người dùng đến mạng của các cuộc gọi loại A cũng cao hơn Điều này dẫn đến suy luận là các cuộc gọi loại A là của các ứng dụng gửi và nhận thư điện tử còn các cuộc gọi loại B là của ứng dụng duyệt Web hay những công việc tương tự Nghiên cứu quá trình đến của các cuộc gọi cho thấy khoảng thời gian giữa thời điểm đến (i.a.t) của các cuộc gọi
có thể được mô hình hoá bằng phân bố hàm siêu mũ (Hyper-Exponential) hay là
tổng của một khoảng các phân bố hàm mũ
Trang 382.2.2 Các phương pháp nén dữ liệu đo
Dữ liệu trong các phép đo lưu lượng thụ động thường rất lớn do đó cần thiết phải thực hiện một số biện pháp nhằm giảm kích thước hay nói cách khác là nén dữ liệu này lại để có thể lưu trữ, vận chuyển và phân tích được dễ dàng hơn Một số phương pháp quan trọng đang được sử dụng hiện nay bao gồm: sử dụng các bản tóm tắt gói, sử dụng khái niệm luồng lưu lượng, và cuối cùng là biện pháp lấy mẫu
Sử dụng dấu hiệu gói lưu lượng
Một trong những cách có thể sử dụng để giảm lượng dữ liệu đo là sử dụng
“dấu hiệu” gói và luồng, phương pháp này có thể áp dụng cho các phép đo trong đó mục đích không phải là nội dung của các gói mà là xác định biểu hiện của các gói lưu lượng khi di chuyển qua các thành phần mạng khác nhau, ví dụ như các phép đo trễ hay tỉ lệ mất gói, sơ đồ định tuyến hay xác định các tấn công từ chối dịch vụ (DDoS)
Ý tưởng của phương pháp này là sử dụng một số thuật toán để tính toán 1 mô
tả tóm tắt (gọi là digest) nội dung của một gói lưu lượng, thuật toán đơn giản nhất
đó là cộng tất cả các byte của gói dữ liệu lại với nhau, tuy nhiên kết quả là tỉ lệ xung đột tương đối cao Bằng cách sử dụng các thuật toán tạo bản tóm tắt tinh vi hơn, ví
dụ sử dụng các cơ chế tạo mật mã như MD5 [16] và SHA [17] có thể giảm tỉ lệ va
chạm cho dù chỉ sử dụng một phần các giá trị Hash Cần lưu ý là khi tính các “mô
tả tóm tắt” của các gói cần phải bỏ qua những trường trong phần tiêu đề của gói IP
như DS, TTL và Checksum vì chúng có thể thay đổi trên đường đi của gói
Phương pháp này cũng có thể áp dụng cho trường hợp các trang tài liệu web
vì nếu một trang web được truyền nhiều lần trên cùng một liên kết người ta thường
sử dụng cơ chế nhớ tạm thời (caching) để giảm lượng thông tin tải trên mạng
Sử dụng khái niệm luồng lưu lượng
Thực tế mỗi kết nối trên mạng Internet chứa nhiều gói IP và các gói liên tiếp nhau thường có phần tiêu đề tương tự nhau, ví dụ trong một phiên làm việc UDP hoặc TCP bình thường, các gói chỉ có một số ít trường khác nhau, là:
- Chỉ số nhận dạng khối dữ liệu IP, được sử dụng trong trường hợp cần phải phân đoạn khối dữ liệu TCP, tuy nhiên trong các phiên bản TCP mới nhất người ta tránh tối đa việc phân đoạn dữ liệu TCP bằng các bản tin khám phá PMTU
- Trường checksum của gói IP
- Số thứ tự khung dữ liệu TCP
- Số thứ tự khung phúc đáp (ACK )của TCP
Trang 39- UDP hoặc TCP Checksum
Trường chỉ số nhận dạng khối dữ liệu IP cần thiết trong một số trường hợp, ví
dụ để xác định các khối dữ liệu IP trùng lắp, tuy nhiên đối với bài toán mô hình hoá nguồn hoặc luồng dữ liệu thì nó là không cần thiết Về chỉ số này cộng đồng nghiên cứu mạng Internet cũng đã thảo luận rất nhiều về sự cần thiết của nó và đa số thống nhất với nhau là có thể bỏ trường này vì các phiên bản TCP mới hiện nay và giao
thức IPv6 không cho phép phân đoạn dữ liệu TCP Các trường checksum được tính
từ dữ liệu, đối với trường Checksum của gói IP thì hoàn toàn có thể kiểm tra được
do nó chỉ tính trong phần tiêu đề của gói, nhưng phần checksum của TCP hoặc UDP
thì cần phải bắt cả khối dữ liệu Đối với trường TTL, nó sẽ thay đổi nếu như đường
đi của các khối dữ liệu thay đổi, nên nếu mục đích phép đo là theo dõi các thay đổi trong bảng định tuyến của mạng thì cần phải ghi lại giá trị TTL
Cuối cùng các trường số thứ tự gói TCP truyền và ACK của các gói liên tiếp nhau của cùng một luồng dữ liệu thực tế gần bằng nhau, nếu không có sự thay đổi thứ tự hay mất các khối dữ liệu truyền thì chúng khác nhau 1 lượng đúng bằng kích thước phần tải tin của mỗi gói
Tóm lại bằng cách kết hợp tất cả các phương pháp loại bỏ các trường không cần thiết hoàn toàn có thể nén phần tiêu đề của các gói dữ liệu lưu lượng với tỉ lệ 10:3 hoặc thậm chí tốt hơn như trong [18] và [19]
Cuối cùng phương pháp hay được áp dụng nhất hiện nay để nén dữ liệu đo là phương pháp lấy mẫu lưu lượng Phương pháp này được trình bày chi tiết ở phần 2.3
2.2.3 Vấn đề đồng bộ thời gian
Trong những phép đo bao gồm nhiều điểm đo và kết quả đo có chứa các nhãn thời gian thì có một vấn đề nảy sinh là cần phải đồng bộ thời gian giữa các điểm đo Một trong các phương pháp giải quyết thách thức này là sử dụng giao thức phân
phối thời gian qua mạng NTP (Network Time Protocol) để đồng bộ nguồn đồng hồ
của các nút đo với một đồng hồ chuẩn, tuy nhiên phương pháp này có một số nhược điểm sau:
- NTP tập trung vào độ chính xác trên thang thời gian dài nên với các thang thời gian đo ngắn nó không chính xác và đồng thời còn có một lượng dịch chuyển nhất định
Trang 40- Thông tin thời gian của NTP cũng phải được truyền qua mạng trong quá trình đồng bộ hoá nên cũng chịu một lượng biến thiên trễ (Jitter) nhất định, nghĩa là bản thân nó cũng không phải là hoàn toàn chính xác
- Hai hệ thống máy tính sử dụng giao thức NTP chỉ có thể đồng bộ hoá nguồn đồng hồ của chúng đến xấp xỉ 10ms, nên những phép đo yêu cầu độ phân giải thời gian cao hơn thì không thể áp dụng NTP
Ngoài ra, nguồn đồng hồ thời gian thực trong các máy tính thường không được chính xác lắm, thường có sai số vài giây trong một ngày, ví dụ: với sai số của nguồn đồng hồ là 5s một ngày thì trong 10 phút sẽ có sai số là 35ms, xấp xĩ với trễ truyền gói trên mạng, do đó nếu chúng ta tiến hành đo trễ truyền một chiều thì có thể thấy
là kết quả đo sẽ bị sai nghiêm trọng sau một khoảng thời gian đo ngắn và kết quả cuối cùng là không đồng nhất với nhau
Vì thế đối với những phép đo yêu cầu độ chính xác cao về thời gian, người ta thường cung cấp thông tin đồng hồ ngoài băng sử dụng sóng vô tuyến trong đó phương pháp hữu ích nhất là sử dụng nguồn thông tin định thời của hệ thống GPS
Hệ thống định vị toàn cầu GPS hiện nay cung cấp dịch vụ cho người dùng ở khắp mọi nơi và có thể cung cấp nguồn đồng hồ với độ phân giải lên đến 350ns và độ chính xác 95% [20]
Tuy nhiên trong luận án này, bản chất phép đo là thụ động bắt các gói truyền trên mạng nên vấn đề này không ảnh hưởng gì đến kết qủa đo cũng như đến quá trình phân tích dữ liệu đo nên nghiên cứu sinh không đi sâu xây dựng giải pháp đồng bộ thời gian cho các phép đo
2.3 Kỹ thuật lấy mẫu lưu lượng mạng Internet
Việc lấy mẫu lưu lượng Internet là nhằm giảm lượng dữ liệu đo và/hoặc để có thể đo được các liên kết tốc độ cao mà tốc độ của thiết bị đo không đáp ứng được Lấy mẫu có thể được thực hiện trong quá trình bắt giữ gói hoặc sau khi đã có dữ liệu đo tuỳ vào bản chất của bài toán và hạ tầng mạng
Hiện nay có một số phương pháp và kỹ thuật lấy mẫu lưu lượng khác nhau có thể áp dụng tuỳ theo yêu cầu xử lý và độ chính xác của phép phân tích và nhìn
chung có thể chia chúng thành hai loại chính bao gồm (i) lấy mẫu theo thời gian và (ii) lấy mẫu theo sự kiện
• Lấy mẫu theo thời gian là một trong những kỹ thuật xử lý tín hiệu truyền thống
và trong lĩnh vực đo lường lưu lượng khái niệm này được hiểu như sau: giả thiết
dữ liệu lưu lượng đo được là D bao gồm 3 thông số quan trọng là: thời điểm đến