Một số phát hiện mớI trong đo lường và phân tích lưu lượng internet Mô hình và các thuộc tính phân loạI lưu lượng theo ứng dụng

Một số phát hiện mớI trong đo lường và phân tích lưu lượng internet Mô hình và các thuộc tính phân loạI lưu lượng theo ứng dụng Một số phát hiện mớI trong đo lường và phân tích lưu lượng internet Mô hình và các thuộc tính phân loạI lưu lượng theo ứng dụng luận văn tốt nghiệp thạc sĩ

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN TÀI HƯNG

MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN TÍCH LƯU LƯỢNG INTERNET MÔ HÌNH VÀ CÁC THUỘC TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG

LUẬN ÁN TIẾN SĨ KỸ THUẬT

HÀ NỘI - 2007

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN TÍCH LƯU LƯỢNG INTERNET MÔ HÌNH VÀ CÁC THUỘC TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG

Chuyên nghành: Kỹ thuật viễn thông

Mã số: 62.52.70.05

LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS.TS PHẠM MINH HÀ

Hà Nội - 2007

Trang 3

Lời cam đoan

Tôi xin cam đoan luận án này là công trình nghiên cứu của chính bản thân Các kết quả nghiên cứu trong luận án là trung thực và chưa được công bố trong bất kỳ công trình nào khác

Tác giả luận án

Trang 4

Mục lục

Lời cam đoan i

Mục lục ii

Danh mục các chữ viết tắt v

Danh mục các từ khoá và ký hiệu vi

Danh mục các hình vẽ và đồ thị vii

Danh mục các bảng ix

MỞ ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Đối tượng, mục tiêu và phạm vi nghiên cứu của luận án 2

3 Phương pháp nghiên cứu của luận án 3

4 Ý nghĩa khoa học và thực tiễn của luận án 5

5 Bố cục của luận án 5

Ch−¬ng 1 TỔNG QUAN VỀ PHÂN TÍCH VÀ NHẬN DẠNG LUỒNG LƯU LƯỢNG INTERNET 8

1.1 Nhu cầu phân tích và nhận dạng luồng lưu lượng ứng dụng Internet 8

1.2 Các nghiên cứu liên quan 10

1.3 Kết luận về vấn đề nghiên cứu của luận án 15

Ch−¬ng 2 ĐO LƯỜNG VÀ LẤY MẪU LƯU LƯỢNG INTERNET 17

2.1 Giới thiệu chung 17

2.2 Đo lường thụ động 19

2.2.1 Khảo sát các phương pháp và ứng dụng đo lường thụ động 21

2.2.1.1 Tiến trình bắt giữ gói lưu lượng 21

2.2.1.2 Tiến trình phân tích thô dữ liệu gói bắt được 22

2.2.1.3 Đo lường mạng đường trục 24

2.2.1.4 Đo lường mạng nội bộ 25

2.2.1.5 Đo lường mạng quay số (Dial-up và ADSL) 26

2.2.2 Các phương pháp nén dữ liệu đo 27

2.2.3 Vấn đề đồng bộ thời gian 28

2.3 Kỹ thuật lấy mẫu lưu lượng mạng Internet 29

2.3.1 Thuật toán lấy mẫu 30

2.3.1.1 Lấy mẫu hệ thống 30

2.3.1.2 Lấy mẫu ngẫu nhiên 31

2.3.1.3 Lấy mẫu phân tầng 32

2.3.2 Tần số lấy mẫu và khoảng lấy mẫu 32

2.4 Phần mềm BKCAP 33

2.4.1 Yêu cầu thiết kế 33

2.4.2 Thiết kế hệ thống 35

2.4.3 Đánh giá hiệu suất hoạt động của BKCAP 39

2.5 Tổ chức cơ sở dữ liệu đo 40

2.5.1 Các tệp dữ liệu lưu lượng sử dụng trong luận án 40

2.5.2 Tỉ lệ phần trăm số lượng luồng theo từng ứng dụng 44

2.6 Kết luận 45

Ch−¬ng 3 PHÂN TÍCH LUỒNG LƯU LƯỢNG IP TRÊN INTERNET 47

3.1 Khái niệm luồng lưu lượng trên Internet 48

Trang 5

3.1.1 Định nghĩa 48

3.1.2 Cơ chế kết thúc luồng 49

3.1.3 Các thuộc tính của luồng 50

3.2 Phân tích các luồng lưu lượng IP trên Internet 51

3.2.1 Cơ sở toán học thống kê 51

3.2.1.1 Lý thuyết lưu lượng và Internet 51

3.2.1.2 Phương pháp dự đoán phân bố phù hợp với dữ liệu đo thực nghiệm 55

3.2.2 Phân tích phân bố I.A.T của các luồng lưu lượng IP 60

3.2.2.1 Phân bố I.A.T của các luồng lưu lượng IP của tất cả các ứng dụng 60

3.2.2.2 Phân bố I.A.T của các luồng lưu lượng IP của từng ứng dụng riêng lẽ 67

3.2.2.3 Mô hình đánh giá độ dài phần đuôi của phân bố quá trình đến của các luồng lưu lượng IP 73

3.2.3 Phân bố kích thước luồng lưu lượng IP 80

3.2.3.1 Phân bố kích thước luồng theo gói 81

3.2.3.2 Phân bố kích thước luồng theo byte 82

3.2.3.3 Phân bố thời lượng luồng 84

3.3 Kết luận 85

Ch−¬ng 4 MÔ HÌNH TỰ ĐỘNG NHẬN DẠNG VÀ PHÂN LOẠI LUỒNG LƯU LƯỢNG IP TRÊN INTERNET 87

4.1 Giới thiệu chung 87

4.2 Cơ sở lý thuyết học tự động 89

4.2.1 Định nghĩa 89

4.2.2 Thành phần 89

4.2.3 Học có giám sát và học không có giám sát 90

4.2.4 Lựa chọn thuộc tính 90

4.2.4.1 Tổ chức tìm kiếm 91

4.2.4.2 Mô hình hoán đổi 92

4.2.4.3 Mô hình bộ lọc 93

4.2.5 Thuật toán phân loại (thuật toán học) 94

4.2.5.1 Thuật toán C4.5 94

4.2.5.2 Thuật toán Naive Bayes / NBD 96

4.2.5.3 Thuật toán lân cận gần nhất (kNN) 97

4.2.5.4 AdaBoost – kỹ thuật “Boosting” 97

4.3 Xây dựng mô hình nhận dạng và phân loại luồng lưu lượng IP bằng phương pháp học tự động 98

4.3.1 Chuẩn bị dữ liệu 100

4.3.2 Xây dựng tập các thuộc tính của luồng lưu lượng IP 101

4.3.2.1 Các thuộc tính liên quan đến các phân bố về tải tin và i.a.t gói và luồng 105 4.3.2.2 Các thuộc tính xác định tính qui luật của tải tin và tốc độ truyền 108

4.3.2.3 Các thuộc tính thể hiện tính chất tương tác: dòng lệnh và bàn phím 109

4.3.2.4 Các thuộc tính thể hiện các phiên làm việc kiểu truyền dữ liệu 111

4.3.2.5 Các thuộc tính thể hiện hướng truyền 112

4.3.3 Lớp lưu lượng 115

4.3.4 Công cụ phân tích 117

4.3.5 Phương pháp đánh giá hiệu suất của các bộ phân loại 119

4.3.6 Lựa chọn thuộc tính 121

Trang 6

4.3.7 Xây dựng mô hình 127

4.3.8 Mô phỏng và đánh giá mô hình 128

4.3.8.1 Tỉ lệ phân loại đúng và sai 128

4.3.8.2 Tốc độ phân loại và thời gian học 132

4.3.8.3 Sự phụ thuộc vào kích thước dữ liệu mẫu 133

4.3.8.4 Sự phụ thuộc vào thời gian time-out của luồng 133

4.3.8.5 Sự phụ thuộc vào kích thước cửa sổ luồng 135

4.4 Kết luận 137

KẾT LUẬN VÀ KIẾN NGHỊ 139

1 Kết quả nghiên cứu 139

2 Hướng phát triển của đề tài 140

DANH MỤC CÁC CÔNG TRÌNH 141

TÀI LIỆU THAM KHẢO 142

PHỤ LỤC A - MỘT SỐ CÔNG CỤ THU THẬP VÀ ĐO LƯỜNG LƯU LƯỢNG GÓI HIỆN CÓ .149

Trang 7

Danh mục các chữ viết tắt

Một số từ viết tắt quan trọng sử dụng trong luận án

tích bù

Complement/Cummulative Density Function

đến

Inter-arrival time

Protocol

IG Lượng thông tin (của 1 thuộc tính) Information Gain

HFA Bộ công cụ tạo luồng lưu lượng HUT Flow Analysis

Secured

Libpcap Bộ thư viện các hàm bắt gói Libraries for packet capturing

MAC Giao thức điều khiển truy nhập Media Access Control

SSE Chỉ số kiểm tra mức độ phù hợp Sum of Square due to Error

R 2 Chỉ số kiểm tra mức độ phù hợp R-Square

RTT Trễ phía phát ->phía thu ->phía phát Round Trip Time

TTL Thời gian sống của gói trên mạng Time to live

Trang 8

Danh mục các từ khoá và ký hiệu Các từ khoá

qui luật (phân loại) từ dữ liệu mẫu

Phân loại lưu lượng Là quá trình nhận dạng lưu lượng của 1 ứng dụng hoặc nhóm ứng

dụng trên mạng Internet từ đó phân chia thành các nhóm khác nhau

tìm hiểu các đặc tính đặc trưng của các luồng lưu lượng Internet

kéo dài, hay có nghĩa có lượng biến thiên vô hạn (suy giảm chậm theo qui luật luỹ thừa)

học bằng cách kết hợp nhiều thuật toán học kém chính xác hơn

giả định nào đấy

tất cả các gói lưu thông trong mạng

trước sang ngôn ngữ máy

Bảng một số ký hiệu

α Tham số của các phân bố vệt dài, thể hiện mức độ kéo dài của phần đuôi của phân bố

τ Biến thời gian time-out trong định nghĩa các luồng lưu lượng IP

H(X) Entropy của biến ngẫu nhiên X

P(X=y) Xác suất biến ngẫu nhiên X lấy giá trị y

P(c j |y) Xác suất dữ liệu y thuộc lớp c j

Trang 9

Danh mục các hình vẽ và đồ thị

Hình 2-1 Kiến trúc phần mềm bắt và phân tích gói lưu lượng Internet BKCAP 37

Hình 2-2 Tổ chức cơ sở dữ liệu luồng lưu lượng đo được trong BKCAP 38

Hình 2-3 Sơ đồ bố trí hệ thống đo và thu thập dữ liệu lưu lượng thực tế tại EVN Telecom 40

Hình 2-4 Định dạng fs 42

Hình 2-5 Phân chia các gói lưu lượng thành các luồng tương ứng 43

Hình 2-6 Phân bố số lượng luồng giữa các ứng dụng, thống kê từ các tệp dữ liệu đo DL1 và DL7 45

Hình 3-1 Đồ thị log-log CCDF của các phân bố vệt dài (theo [34][35]) 54

Hình 3-2 Hàm CDF I.A.T của các luồng lưu lượng thực nghiệm trong tệp dữ liệu DL1, với các giá trị time-out khác nhau 61

Hình 3-3 Biểu đồ phân bố I.A.T luồng lưu lượng của một số dữ liệu đo 64

Hình 3-4 Hàm ccdf I.A.T của các luồng lưu lượng (a) trên thang tuyến tính và (b) thang logarit – DL2, 60s 66

Hình 3-5 Phân bố I.A.T của các luồng lưu lượng của một số ứng dụng chính trong hai tập dữ liệu DL1 và DL4 Tần suất xuất hiện ở đây là các giá trị đã được chuẩn hoá 72

Hình 3-6 Đồ thị Q-Q giữa dữ liệu thực nghiệm của ứng dụng imap và các phân bố giả định, DL1, 60s 75

Hình 3-7 Vùng đuôi dài của đồ thị log-log CCDF của phân bố I.A.T luồng lưu lượng Internet (2, 4, 8, 16, 32, 64, 128, 256 và 512 là các mức tổng hợp dữ liệu tương ứng) .78

Hình 3-8 Đồ thị log-log CCDF phân bố kích thước luồng lưu lượng Internet theo gói trong các tệp dữ liệu DL1 và DL7 và thời gian time-out là 60s 81

Hình 3-9 Đồ thị CCDF (thang logarit) phân bố kích thước các luồng lưu lượng IP trong dữ liệu DL1 theo byte. 83

Hình 3-10 Đồ thị CDF phân bố kích thước thời lượng các luồng lưu lượng IP, xét trong dữ liệu DL1 và thời gian Time-out = 60s 84

Hình 4-1 Mô hình phân loại lưu lượng Internet ở mức luồng 88

Hình 4-2 Mô hình lựa chọn thuộc tính cho quá trình phân loại tự động 93

Hình 4-3 Lưu đồ thuật toán phân loại luồng lưu lượng sử dụng kỹ thuật học tự động 100

Hình 4-4 Mô phỏng khái niệm các phân bố rời rạc tải tin và I.A.T của các gói thuộc luồng 107

Hình 4-5 Phân bố số lượng luồng trong cửa sổ quan sát 108

Hình 4-6 Lưu đồ qúa trình học, đánh giá và kiểm tra mô hình phân loại 121

Hình 4-7 Thứ tự 20 thuộc tính quan trọng nhất 126

Hình 4-8 Độ chính xác của các thuật toán phân loại khác nhau khi thực hiện trên toàn bộ 42 thuộc tính 129

Hình 4-9 Độ chính xác của các thuật toán phân loại khác nhau khi thực hiện trên 15 thuộc tính quan trọng nhất 129

Hình 4-10 Độ tin cậy hay tỉ lệ phân loại đúng của các lớp lưu lượng tương ứng 130

Trang 10

Hình 4-11 Độ tin cậy phân loại của các lớp lưu lượng tính trung bình trên tất cả các tập dữ liệu và các thuật toán học 131 Hình 4-12 Độ chính xác trung bình theo kích thước tập dữ liệu mẫu 133 Hình 4-13 Độ chính xác phân loại theo thời gian time-out của luồng, tệp dữ liệu mẫu là DL7 và sử dụng cả 42 thuộc tính luồng 134 Hình 4-14 Biến thiên độ tin cậy theo thời gian time-out của luồng, dữ liệu DL7, sử dụng 42 thuộc tính 135 Hình 4-15 Sự phụ thuộc giữa độ chính xác và khoảng chồng lấn cửa sổ 137 Hình 4-16 Sự phụ thuộc giữa độ chính xác và kích thước cửa sổ 137

Trang 11

Danh mục các bảng

Bảng 1-1 Chín thuộc tính cơ bản của kết nối mạng theo Lee và Stolfo 12

Bảng 1-2 Các thuộc tính luồng tương tác theo Paxson và Zhang 13

Bảng 1-3 Các thuộc tính sử dụng để phân chia lưu lượng theo Hernandez-Campos14 Bảng 2-1 Một số phép đo điển hình trên mạng Internet 17

Bảng 2-2 Ví dụ tệp xml mô tả cấu trúc giao thức RTP 37

Bảng 2-3 Các tệp dữ liệu lưu lượng Internet dùng trong luận án. 41

Bảng 2-4 Dữ liệu luồng lưu lượng phục vụ phân tích quá trình đến 43

Bảng 3-1 Các thông số thống kê thời điểm đến (I.A.T) của các luồng lưu lượng 61

Bảng 3-2 Tóm tắt kết quả sự phù hợp giữa phân bố i.a.t thực nghiệm của các luồng lưu lượng của các ứng dụng trong dữ liệu DL7 (τ = 60s) với một số phân bố giả định 79

Bảng 4-1 Số lượng luồng của mỗi tệp dữ liệu tương ứng 101

Bảng 4-2 Tập các thuộc tính của luồng phục vụ bài toán phân loại lưu lượng 102

Bảng 4-3 Danh sách các lớp lưu lượng 116

Bảng 4-4 Danh sách các thuộc tính luồng lưu lượng IP 122

Bảng 4-5 Kết qủa lựa chọn thuộc tính theo giải thuật CFS 124

Bảng 4-6 Kết quả lựa chọn thuộc tính theo các mô hình bộ lọc khác và mô hình hoán đổi 125

Bảng 4-7 Danh sách 15 thuộc tính tốt nhất 126

Bảng 4-8 Các thông số hiệu suất của các thuật toán phân loại lưu lượng 132

Trang 12

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Xu hướng hội tụ công nghệ trong lĩnh vực viễn thông đã làm cho mạng Internet trở thành hạ tầng truyền thông chủ yếu của tất cả các ứng dụng thông tin liên lạc, từ các ứng dụng truyền thống như duyệt web, gửi thư điện tử, truyền file, vv đến các ứng dụng thời gian thực như VoIP, truyền hình trực tuyến, trò chơi trực tuyến và các dịch vụ chia sẽ Việc triển khai các ứng dụng thời gian thực này tạo ra thách thức rất lớn đối với Internet trên hai khía cạnh: (i) cung cấp chất lượng dịch vụ (QoS) và (ii) giám sát mức chất lượng dịch vụ do mạng cung cấp

Để xây dựng kiến trúc cung cấp QoS và/hoặc mô hình giám sát mức chất lượng mà mạng cung cấp, việc đầu tiên và đóng vai trò quan trọng nhất là phải xác định được các biểu hiện hoạt động và biến thiên của lưu lượng của các ứng dụng trên Internet, từ đó tìm ra các đặc trưng lưu lượng của từng loại ứng dụng Từ các đặc trưng này sẽ tiến hành xây dựng các mô hình nhận dạng lưu lượng ứng dụng và

do đó có thể áp dụng các mức ưu tiên xử lý khác nhau với chúng

Thực tế cũng đã có nhiều nghiên cứu về các đặc tính và biểu hiện biến thiên

của lưu lượng Internet Có thể chỉ ra những nghiên cứu điển hình bao gồm: On the

Self-Similar Nature of Ethernet Traffic (bản đầy đủ),” IEEE/ACM Transactions on Networking, 2(1), trang 1-13, 1994, của các tác giả Leland, W., M Taqqu, W

Willinger, và D Wilson; Wide area Internet traffic patterns and characteristics,

IEEE Network Mag Tập 11(6), trang 10-23, 1997 của các tác giả Kevin Thompson,

Gregory J Miller, và Rick Wilder; luận án tiến sĩ của K.C.Claffy, Internet traffic

characterization, University of California, San Diego, 1994; vv

Kết quả khảo sát của NCS về những nghiên cứu này cho thấy:

- Do đặc điểm của mạng Internet là một hệ thống phân tán và hoạt động trên cơ chế phân lớp, nên cụm từ “Lưu lượng Internet” được hiểu là tập hợp của rất nhiều định nghĩa, khái niệm và đối tượng khác nhau Do đó các nghiên cứu về lưu lượng Internet rất phong phú và thường được giới hạn trong một phạm vi mạng cụ thể, một lớp nhất định trên mô hình phân lớp TCP/IP hoặc một đối tượng lưu lượng cụ thể nào đó

- Các nghiên cứu trước đây, đa phần tập trung nghiên cứu và đánh giá đặc tính lưu lượng Internet ở mức gói (hay nói cách khác đối tượng nghiên cứu là các gói IP)

Trang 13

và kết quả đã xác nhận các đặc tính cụm, tự đồng dạng và có sự tương quan trong thời gian dài của chúng

- Một số nghiên cứu, bao gồm cả luận án TS của K.C.Claffy, đã khảo sát các đặc tính của lưu lượng Internet ở mức luồng, trong đó họ định nghĩa luồng lưu lượng Internet hoặc là dựa trên cơ chế làm việc của giao thức TCP (dùng cờ SYN và FIN/RESET để đánh dấu sự bắt đầu hoặc kết thúc một luồng lưu lượng), hoặc định nghĩa luồng lưu lượng tương ứng với một phiên làm việc của giao thức ứng dụng Cách định nghĩa luồng lưu lượng này chỉ hữu ích cho việc đánh giá hiệu suất hoạt động của các giao thức đầu cuối cũng như giúp định cỡ cho các hệ thống đầu cuối của mạng Internet mà thường không giúp việc đánh giá hiệu suất hoạt động hoặc các vấn đề khác của bản thân mạng Internet (hay cụ thể hơn là các bộ định tuyến hoạt động ở lớp IP)

- Trong đồ án TS của K.C.Claffy, tác giả chủ yếu nghiên cứu các đặc tính của các luồng lưu lượng Internet tổng hợp bao gồm kích thước luồng và quá trình đến

của luồng và đánh giá sự phụ thuộc của chúng vào giá trị time-out sử dụng trong

quá trình định nghĩa luồng cũng như các tham số môi trường, mà chưa đưa ra kết luận là các đặc tính này tuân theo phân bố gì và cũng chưa nghiên cứu riêng

rẽ cho từng ứng dụng trong lưu lượng tổng hợp

Như vậy có thể thấy vấn đề phân tích và đặc tính hoá các luồng lưu lượng Internet ở lớp IP còn phải được nghiên cứu và khảo sát một cách chi tiết, đặc biệt theo hướng làm rõ các đặc tính đặc trưng theo ứng dụng hoặc nhóm ứng dụng của chúng Điều này rất quan trọng trong việc tìm kiếm mô hình phân chia lưu lượng Internet một cách tự động và trong thời gian thực nhằm thay thế cho các mô hình phân chia lưu lượng dựa trên giá trị cổng ứng dụng hiện đang gặp nhiều vấn đề về

độ chính xác

2 Đối tượng, mục tiêu và phạm vi nghiên cứu của luận án

Với hiện trạng như phần trên, mục tiêu nghiên cứu của luận án là sử dụng các

mô hình phân tích và dự đoán nhằm tìm hiểu các biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP trên Internet và từ đó xây dựng mô hình cho phép tự động nhận dạng và phân chia lưu lượng thành các nhóm ứng dụng khác nhau, góp phần giải quyết thách thức mà các nhà cung cấp dịch vụ truy nhập (ISP/IXP) cũng như các nhà cung cấp nội dung (ICP) Internet hiện nay đang gặp phải Trọng tâm nghiên cứu là xác định tập các thuộc tính của luồng lưu lượng IP trên mạng đồng

Trang 14

thời nhận biết các dấu hiệu phân biệt chúng với nhau Vì thế đối tượng nghiên cứu của luận án là các luồng lưu lượng IP trên Internet

Có thể tóm tắt phạm vi nghiên cứu của luận án bao gồm việc nghiên cứu giải quyết các vấn đề:

- Thu thập và xây dựng một cơ sở dữ liệu lưu lượng Internet đầy đủ và tin cậy

- Thực hiện các phân tích thống kê và mô hình hoá các luồng lưu lượng đo ở lớp IP nhằm tìm hiểu các biểu hiện hoạt động và biến thiên của chúng cũng như các đặc tính đặc trưng theo kiểu ứng dụng

- Xây dựng mô hình cho phép tự động nhận dạng với độ chính xác cao lưu lượng của các nhóm ứng dụng điển hình trên Internet nhằm thay thế cho mô hình phân chia theo giá trị cổng ứng dụng hiện đang gặp nhiểu trở ngại do có chế cấp phát động cổng ứng dụng của mạng Internet

- Đánh giá hiệu suất và độ chính xác của mô hình tìm được trên dữ liệu thực nghiệm thu thập từ mạng

Tuy nhiên do thực tế Internet là mạng thông tin toàn cầu có qui mô và số lượng ứng dụng vô cùng lớn, đồng thời trạng thái hoạt động của mạng cũng thể hiện sự biến thiên rất lớn trên nhiều mặt, như biến thiên về tải lưu lượng, biến thiên theo khu vực địa lý, biến thiên theo vùng mạng hay biến thiên theo kiểu ứng dụng, vv

Do đó việc nghiên cứu biểu hiện hoạt động của các luồng lưu lượng IP trên toàn mạng Internet là điều không thể thực hiện được Hơn nữa do điều kiện khách quan nên dữ liệu lưu lượng đo của luận án, được thu thập tại mạng ISP/IXP của công ty Thông tin viễn thông điện lực, có thể không hoàn toàn mang tính đại diện cho lưu lượng của mạng Internet toàn cầu Vì thế các kết quả nghiên cứu của luận án trước hết thể hiện các biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP trong phạm vi một mạng ISP/IXP điển hình sau đó, hy vọng phần nào, thể hiện đặc tính của mạng Internet nói chung Đồng thời mô hình nhận dạng luồng lưu lượng IP do luận án đề xuất phù hợp trước hết cho những ứng dụng của các mạng ISP/IXP

3 Phương pháp nghiên cứu của luận án

Phương pháp luận khoa học sử dụng trong luận án này là sự kết hợp giữa mô hình phân tích và các phép đo thực nghiệm Phương pháp sử dụng các mô hình phân tích có nhiều ưu điểm như khả năng kiểm soát được hoạt động của mô hình và cung cấp các chi tiết về mối quan hệ giữa các tham số đầu vào với kết quả đầu ra, tuy nhiên nó cũng có nhược điểm là thường phải sử dụng các “tóm tắt” của hệ thống ở mức cao nên đôi khi mô hình không phản ánh đúng bản chất thực tế của quá trình

Trang 15

lưu lượng Do đó cần thiết phải có sự kiểm tra hoạt động của các mô hình phân tích trên dữ liệu đo thực nghiệm từ mạng thực tế

Cụ thể lưu lượng thu thập từ mạng Internet được xử lý để tạo các tệp dữ liệu luồng Các tệp dữ liệu luồng này sau đó được phân tích bằng các mô hình và phương pháp thống kê để tìm hiểu biểu hiện hoạt động và biến thiên của chúng cũng như nguyên nhân gây ra các biểu hiện đó Hai phương pháp thống kê quan

trọng được sử dụng luận án này bao gồm: (i) phương pháp đánh giá hình dạng và

dự đoán các thông số liên quan của phân bố dữ liệu thực nghiệm, như các hàm

phân bố xác suất (pdf), phân bố xác suất luỹ tích (cdf), phân bố xác suất luỹ tích bù (ccdf), đồ thị Q-Q, biểu đồ, mô hình dự đoán MLE, mô hình tổng hợp dữ liệu và (ii)

phương pháp đánh giá mức độ phù hợp giữa phân bố dữ liệu thực nghiệm với các phân bố lý thuyết (phương pháp thích hợp hoá các đường cong), như mô

hình tính toán các chỉ số thống kê SSE (Sum of Square due to Error), R2, mô hình

Trang 16

kiểm tra KS (Kolmogorov-Smirnov) Chi tiết của hai phương pháp này sẽ được trình

bày trong mục 3.2.1 của chương 3

Kết quả của quá trình phân tích và mô hình hoá luồng lưu lượng IP là tập các thuộc tính đặc trưng cùng với kiểu giá trị của chúng Dựa trên tập thuộc tính này, tiến hành xây dựng các tập dữ liệu mẫu và dữ liệu kiểm tra chứa các luồng lưu lượng (thể hiện dưới dạng bản ghi các thuộc tính của nó) đã được phân loại một cách thủ công Các thuật toán học tự động của trí tuệ nhân tạo sau đó được “luyện trên các tập dữ liệu mẫu và kiểm nghiệm trên tập dữ liệu kiểm tra để tìm ra qui luật nhận dạng và phân loại luồng lượng IP Nói cách khác luận án không sử dụng một thuật toán cố định cho trước để xây dựng các bộ phân loại lưu lượng, thay vào đó các thuật toán học tự động sẽ học các qui luật phân loại trực tiếp trên dữ liệu lưu lượng thể hiện dưới dạng tập các thuộc tính đặc trưng của luồng có sự kết hợp với các mô hình lựa chọn thuộc tính đã được tác giả cải tiến cho phù hợp với bài toán nhận dạng luồng lưu lượng Chi tiết về các thuật toán này cũng như những lĩnh vực liên quan của lý thuyết học tự động được trình bày chi tiết trong phần 4.3 của chương 4 Có thể tóm tắt phương pháp nghiên cứu của luận án như lưu đồ ở trên

4 Ý nghĩa khoa học và thực tiễn của luận án

Luận án đã đề xuất và xây dựng thành công một mô hình mới cho phép nhận dạng các luồng lưu lượng của các nhóm ứng dụng trên mạng Internet bằng cách sử dụng các thuật toán học tự động của trí tuệ nhân tạo trên cơ sở tập các thuộc tính đặc trưng của các luồng lưu lượng IP Mô hình này đã cung cấp một phương thức

mang tính hệ thống và khoa học cao cho phép giải quyết các vấn đề còn tồn tại

cũng như mới nảy sinh của mạng Internet hiện nay trong việc cung cấp và giám sát các mức chất lượng của mạng Từ kết quả mô phỏng trên dữ liệu lưu lượng đo thực

nghiệm cho thấy mô hình có tính ứng dụng thực tế rất cao, chỉ cần một số hiệu

chỉnh nhỏ là có thể áp dụng trên các bộ định tuyến hoạt động trên mạng

5 Bố cục của luận án

Luận án được tổ chức bao gồm phần mở đầu, 4 chương nội dung và kết luận như sau:

Chương 1 trình bày tổng quan tình hình nghiên cứu tại Việt Nam và trên thế

giới trong lĩnh vực kỹ thuật lưu lượng mạng Internet thông qua việc khảo sát các nghiên cứu liên quan đến vấn đề của luận án

Chương 2 khảo sát các phương pháp đo lường và thu thập thông tin về lưu

lượng mạng Internet hiện có và từ đó tìm một công cụ đo lường thích hợp để thu

Trang 17

thập dữ liệu lưu lượng mạng thực tế phục vụ cho các quá trình phân tích, mô hình hoá và mô phỏng tiếp theo Thực tế, NCS đã phát triển một phần mềm đo lường lưu lượng mạng riêng dựa trên thư viện các hàm bắt gói LIBPCAP cải tiến, và được đặt

tên là BKCAP Trong phần mềm này, NCS đã thực hiện một số cải tiến về vấn đề

lấy mẫu và lọc gói nhằm giảm khối lượng dữ liệu đo và đồng thời đưa ra phương pháp tổ chức dữ liệu đo bằng cơ sở dữ liệu quan hệ (SQLite) nhằm lưu trữ một lượng lớn dữ liệu đo cũng như tạo sự dễ dàng cho các phép phân tích thống kê Ngoài ra một cải tiến mới của BKCAP là nó có khả năng bắt và giải mã bất kỳ giao thức mạng và ứng dụng mới nào bằng cách định nghĩa khuôn dạng và các qui tắc

phân tích tiêu đề dưới dạng các tệp xml

Chương 3 tập trung vào quá trình phân tích thống kê các đặc tính và biểu hiện

của luồng lưu lượng IP Được bắt đầu bằng việc khảo sát các khái niệm luồng lưu lượng Internet đang được sử dụng hiện nay và trình bày định nghĩa luồng sử dụng trong luận án Phần tiếp theo của chương xác định các yếu tố và đặc tính cần phân tích của các luồng lưu lượng và bản thân các mô hình phân tích có thể Cuối cùng là

mô phỏng và đánh giá mô hình phân tích trên dữ liệu luồng tạo ra từ các gói lưu lượng thu thập được bằng phần mềm BKCAP và một số dữ liệu gói trên mạng Internet (để đảm bảo tính tổng quát) Hướng phân tích luồng ở đây được thực hiện với mục tiêu là nhằm phát hiện ra một số thuộc tính bất biến của chúng làm cơ sở cho thuật toán nhận dạng lưu lượng ứng dụng ở phần tiếp theo Một số tham số và phân bố quan trọng của các luồng lưu lượng Internet được khảo sát trong chương

này, bao gồm: phân bố khoảng thời gian giữa các thời điểm đến, phân bố kích

thước, phân bố thời lượng và tỉ lệ số lượng luồng giữa các ứng dụng, vv

Chương 4 dựa trên kết quả khảo sát và đánh giá các phương pháp phân loại

lưu lượng mạng Internet hiện có ở chương 1, đề xuất một mô hình mới cho phép nhận dạng lưu lượng của các ứng dụng trên mạng Internet Phần đầu của chương trình bày tóm tắt cơ sở lý thuyết học tự động và đánh giá khả năng áp dụng chúng vào quá trình nhận dạng lưu lượng Phần chính của chương tập trung phân tích và

mô phỏng thực nghiệm để xác định và tính toán kiểu giá trị của các thuộc tính quan trọng của các luồng lưu lượng IP như là các dấu hiệu cho phép phân biệt lưu lượng giữa các nhóm ứng dụng khác nhau Phần quan trọng tiếp theo là thiết kế một mô hình và qui trình phân loại mới bằng cách sử dụng kết hợp tập thuộc tính luồng tìm được ở trên với các thuật toán học tự động của trí tuệ nhân tạo Cuối cùng là đánh giá độ chính xác và tin cậy của mô hình phân loại cũng như hiệu suất hoạt động của chúng

Trang 18

Luận án kết thúc bằng các kết luận về những kết quả nghiên cứu quan trọng

cũng như khả năng ứng dụng của chúng trong việc giải quyết các thách thức của mạng Internet hiện nay và đề xuất các hướng nghiên cứu tiếp theo trong lĩnh vực phân tích và nhận dạng lưu lượng ứng dụng Internet

Trang 19

Ch−¬ng 1 TỔNG QUAN VỀ PHÂN TÍCH VÀ NHẬN DẠNG

LUỒNG LƯU LƯỢNG INTERNET

Chương này sẽ trình bày về hiện trạng và các nhu cầu cần thiết phải thực hiện phân tích và nhận dạng các luồng lưu lượng IP trên Internet, khảo sát các nghiên cứu liên quan trên thế giới và tại Việt Nam từ đó nhằm trả lời hai câu hỏi quan trọng là (i) tại sao cần phải tiến hành phân tích và nhận dạng các luồng lưu lượng

IP trên Internet? và (ii) có thể tự động nhận dạng các luồng lưu lượng IP theo kiểu ứng dụng của chúng hay không?

1.1 Nhu cầu phân tích và nhận dạng luồng lưu lượng ứng dụng Internet

Trong lĩnh vực nghiên cứu mạng Internet hiện nay, có nhiều nghiên cứu nhằm đưa ra các cơ chế, thuật toán và kỹ thuật mới cung cấp chất lượng dịch vụ (QoS)

cho các ứng dụng Tuy nhiên một lĩnh vực rất quan trọng là phương pháp giám sát

các mức chất lượng mà mạng cung cấp cho người dùng để có thể biết rõ ràng người

dùng đang nhận được mức chất lượng như thế nào lại chưa được nghiên cứu một cách hệ thống và chi tiết Việc giám sát mức chất lượng mạng cung cấp cho người dùng chỉ có thể thực hiện được thông qua việc theo dõi các biểu hiện hoạt động và biến thiên của lưu lượng mạng

Ngoài ra sự phát triển quá nhanh của mạng Internet hiện nay cả về qui mô và

số lượng ứng dụng đã làm xuất hiện nhiều vấn đề mà trước đây khi thiết kế mạng

Internet người ta đã không gặp phải, như: khả năng cung cấp chất lượng dịch vụ

(QoS), khả năng phát hiện và ngăn chặn các cuộc tấn công trên mạng, khả năng nhận dạng và chống thư rác, khả năng điều khiển truy nhập mạng đối với từng ứng dụng, mô hình hoá cơ chế chia sẻ tài nguyên giữa các ứng dụng trên mạng và dự đoán xu hướng tăng trưởng lưu lượng của từng ứng dụng hoặc loại ứng dụng Giải

quyết các vấn đề này là nhiệm vụ không đơn giản và điều kiện tiên quyết để có thể thực hiện được là phải tìm ra cơ chế hoặc mô hình cho phép tự động nhận dạng lưu lượng của từng loại ứng dụng trong các luồng lưu lượng tổng hợp vận chuyển trên Internet Hay nói cách khác cần có một giải pháp phân chia lưu lượng tổng hợp trên mạng thành các nhóm khác nhau Lưu lượng trong một nhóm là những lưu lượng có biểu hiện hoạt động và các thuộc tính thống kê tương tự nhau và do đó có đặc tính

sử dụng tài nguyên mạng gần giống nhau Từ đó có thể cung cấp nhiều mức chất lượng khác nhau bằng cách áp dụng mức ưu tiên xử lý phù hợp cho các nhóm lưu

Trang 20

lượng và đương nghiên công việc giám sát mức chất lượng mà mạng cung cấp cho người dùng cũng dễ dàng hơn Đồng thời, việc nhận biết được đâu là các luồng lưu lượng bình thường và đâu là các luồng lưu lượng bất thường sẽ giúp phát hiện ra các cuộc tấn công trong mạng nếu có và đề xuất giải pháp ngăn chặn

Hay như trong một ví dụ khác về hiện tượng tắc nghẽn trong mạng Internet, nguyên nhân gây ra hiện tượng tắc nghẽn có thể là từ một trong các nguồn như: các máy chủ cung cấp nội dung trên mạng bị quá tải, các đường truy nhập có hệ số sử dụng băng thông quá cao, lỗi đường truyền hay lỗi định tuyến trong mạng đường trục, hay các ứng dụng tranh nhau chiếm dụng một tài nguyên tắc nghẽn nào đấy, vv Tuy nhiên việc xác định xem những luồng lưu lượng nào đang góp phần gây nên hiện tượng tắc nghẽn đó chỉ có thể thực hiện được nếu biết được toàn bộ thông tin định tuyến trên mạng là điều gần như không thể thực hiện được đối với Internet Hướng giải quyết khác có thể là sử dụng các mô hình dự đoán thống kê và kỹ thuật học tự động để nhận dạng các hiện tượng và thông số quan trọng nào của các luồng lưu lượng đang góp phần gây nên hiện tượng tắc nghẽn và với thông tin này các ISP

có thể thực hiện việc điều chỉnh cân bằng tải để định hướng lại một số luồng lưu lượng đi các hướng khác nhằm giảm áp lực tắc nghẽn cho điểm đang xét

Về phía người dùng, thông tin về đường đi của các luồng lưu lượng của các ứng dụng khác nhau sẽ giúp cho việc giám sát mức chất lượng mà mạng cung cấp cho họ

Phương pháp nhận dạng lưu lượng ứng dụng trên mạng Internet phổ biến hiện nay thường được thực hiện ở mức gói, theo đó các bộ định tuyến trong mạng khi nhận được một gói lưu lượng sẽ tiến hành kiểm tra một số trường trong phần tiêu đề của gói (ví dụ, cổng ứng dụng) để đưa ra các quyết định gói đó thuộc nhóm lưu lượng nào và tiếp theo áp dụng mức xử lý chuyển tiếp gói tương ứng Nhược điểm của phương pháp phân loại này là tạo ra lượng tải xử lý rất lớn cho các bộ định tuyến, đặc biệt trong các mạng tốc độ cao, do phải kiểm tra từng gói lưu lượng với rất nhiều trường tiêu đề nên sẽ làm giảm hiệu suất và tốc độ chuyển tiếp gói Ngoài

ra, thường thì các bộ định tuyến dựa vào trường ToS (Type of Service) trong phần

tiêu đề của gói IP để đưa ra quyết định phân loại, nhưng trong thực tế mạng Internet hiện nay đa phần các bộ định tuyến không hỗ trợ trường ToS hoặc nếu có hỗ trợ thì cũng chỉ trên một vùng mạng hạn chế nên gây trở ngại cho thuật toán nhận dạng lưu lượng của các ứng dụng

Tóm lại với tất cả các yêu cầu ứng dụng và thách thức công nghệ như trên, mạng Internet hiện nay cần một nghiên cứu mới mang tính tổng thể và toàn

Trang 21

diện các biểu hiện hoạt động và biến thiên của các luồng IP nhằm tìm kiếm một mô hình tự động nhận dạng chúng theo các nhóm ứng dụng Trên cơ sở đó

giải quyết triệt để các vấn đề mới nảy sinh của Internet, bao gồm: cung cấp chất lượng dịch vụ, phát hiện các cuộc tấn công, điều khiển truy nhập tài nguyên hay đánh giá hiệu suất hoạt động của mạng.

1.2 Các nghiên cứu liên quan

Một trong những nghiên cứu đầu tiên về lưu lượng Internet ở mức luồng là

[33], trong nghiên cứu này các tác giả tập trung nghiên cứu cơ chế kết thúc của các

luồng lưu lượng IP bằng phương pháp thiết lập thời gian time-out thích ứng và từ đó

mô hình hoá các thông số thống kê tương ứng của các luồng lưu lượng Bằng các phép phân tích thống kê trên các tệp dữ liệu lưu lượng đo lớn các tác giả đã chứng minh rằng việc thiết lập thời gian time-out của luồng một cách thích ứng với phân

bố và tốc độ đến của các gói trong khoảng thời gian đầu của luồng sẽ cho phép đánh giá hiệu suất hoạt động của mạng chính xác hơn so với trường hợp thiết lập thời gian time-out cố định và do đó việc mô hình hoá các đại lượng của luồng lưu lượng như kích thước và thời lượng luồng cũng phản ánh đúng bản chất thực tế của lưu lượng hơn Tuy nhiên trong nghiên cứu này, mặc dù có nhắc đến, nhưng các tác giả

đã chưa khảo sát chi tiết ảnh hưởng của thời gian time-out đến quá trình đến (khởi tạo) của các luồng lượng IP

Kimberly C Claffy, Hans-Werner Braun, Kevin Thompson và G Miller

trong các nghiên cứu [9], [100] và [101] đã tiến hành khảo sát phân bố kích thước luồng lưu lượng Internet, kết quả cho thấy phần lớn các luồng lưu lượng Internet có kích thước rất bé và phần lớn số lượng gói và byte được vận chuyển trong một số ít luồng lưu lượng có kích thước lớn Đặc điểm này tồn tại trên nhiều mức tổng hợp lưu lượng khác nhau và được các tác giả gọi là hiện tượng “voi và chuột”, trong đó hình tượng con voi được ví cho những luồng lưu lượng kích thước lớn ít ỏi và chuột được ví với các luồng lưu lượng kích thước bé nhưng lại có số lượng rất lớn Thực

tế có nhiều phương pháp nhận dạng các luồng lưu lượng “voi”, nhưng một định nghĩa hay được sử dụng đó là các luồng lưu lượng có tốc độ (kích thước/thời lượng) lớn hơn 1% hệ số sử dụng liên kết

Trên một hướng nghiên cứu khác liên quan đến việc khảo sát thời lượng của

các luồng lưu lượng Internet, Nevil Brownlee và KC Claffy trong nghiên cứu [102]

đã cố gắng phân chia các luồng lưu lượng theo thời lượng của chúng, kết quả cho thấy 45% số lượng luồng có thời lượng bé hơn 2 giây và được ví với hình tượng con

Trang 22

chuồn chuồn và ít hơn 2% số lượng luồng kéo dài quá 15 phút nhưng lại mang hơn 50% tổng số byte lưu lượng trên liên kết và được ví với hình tượng con rùa

Sarvotham và các cộng sự trong nghiên cứu [103] đã khảo sát tính cụm của

lưu lượng trong các luồng lưu lượng Internet, kết quả phát hiện ra có một số ít các kết nối chứa lượng lưu lượng rất lớn và họ gọi đó là các luồng lưu lượng Alpha hay nói cách khác luồng lưu lượng Alpha là các luồng có tốc độ đỉnh vượt quá một mức ngưỡng cho trước Cụ thể hơn họ nhận dạng các kết nối truyền liên tục một số lượng lớn byte trong những khoảng thời gian 500ms là luồng lưu lượng Alpha, các luồng còn lại được gọi là luồng lưu lượng Beta Kết quả cũng cho thấy các gói truyền trong các luồng lưu lượng này cũng có đặc tính cụm giống như khi xét lưu lượng Internet ở mức gói

Zhang và các cộng sự trong nghiên cứu [75] khi khảo sát các luồng lưu

lượng có độ dài trên 30 giây đã phát hiện ra rằng có sự tương quan lớn giữa kích thước và tốc độ (kích thước/thời lượng) của luồng và họ giải thích nguồn gốc của sự tương quan này là do hành vi của người dùng hay nói cách khác người dùng thường

có xu hướng truyền lượng thông tin lớn khi có nhiều băng thông Các nghiên cứu sau này cũng cho thấy đối với các luồng lưu lượng kích thước bé cũng tồn tại sự tương quan giữa kích thước và tốc độ luồng nhưng nguyên nhân thì là do các cơ chế hoạt động và điều khiển của giao thức mạng

Phương pháp phân loại lưu lượng Internet phổ biến nhất hiện nay đang

được áp dụng là sử dụng số hiệu cổng ứng dụng TCP hoặc UDP trong phần tiêu đề của gói IP Theo IANA [60] thì mỗi ứng dụng trên mạng Internet được gắn một số

cổng ứng dụng thuộc 1 trong 3 khoảng giá trị là (i) các cổng ứng dụng phổ biến

(0-1023), (ii) các cổng ứng dụng đã đăng ký (1024-49151) và các cổng ứng dụng dùng riêng (49152-65535) Tuy nhiên phương pháp này hiện nay gặp rất nhiều hạn chế

do không phải tất cả các ứng dụng trên mạng đều tuân thủ số cổng ứng dụng được cấp phát ví dụ các hacker có thể sử dụng các cổng tiêu chuẩn để gán cho các ứng dụng tấn công của họ nhằm vượt qua hệ thống tường lửa Hơn nữa hiện nay rất nhiều ứng dụng mới ra đời sử dụng những cổng ứng dụng hoàn toàn mới kết hợp với cơ chế cấp phát động cổng ứng dụng làm cho kết quả phân loại không chính xác

Trong các nghiên cứu [44] và [45] Dunigan cùng với các cộng sự đã trình

bày một phương pháp cho phép đặc tính hoá các luồng lưu lượng dựa trên phép

phân tích thống kê đa biến thiên (multi-variate) Theo đó từng gói trong luồng lưu lượng sẽ được phân loại dựa trên 3 tham số: kích thước gói, trễ so với gói trước nó

Trang 23

(I.A.T) và hướng truyền của gói Hai tham số đầu được đánh giá thông qua phân bố rời rạc tương ứng của chúng, còn tham số thứ 3 được đánh giá dựa trên hướng truyền của gói và gói liền trước (tổng cộng có 4 giá trị có thể) Quá trình phân loại này đưa ra một tập hữu hạn kết quả (10 loại đối với kích thước gói x 10 loại đối với giá trị I.A.T x 4 loại đối với hướng truyền = 400 loại) và họ xem giá trị của mỗi loại

là 1 biến ngẫu nhiên thể hiện tỉ lệ phần trăm gói của một luồng nào đó là thuộc một loại cụ thể Tuy nhiên thay vì nghiên cứu từng ứng dụng mạng riêng biệt, họ tiến hành phân loại luồng một cách hệ thống hơn bằng phương pháp thống kê PCA

(Principle Component Analysis), theo đó họ áp dụng phép phân tích PCA để tìm ra

3 biến ngẫu nhiên thể hiện sự khác nhau rõ nét nhất giữa các loại luồng lưu lượng Sau đấy mỗi luồng lưu lượng có thể được mô tả chỉ bằng 3 thuộc tính tương ứng của nó, từ đó họ định nghĩa một khái niệm gọi là hồ sơ luồng lưu lượng: là hàm 3 chiều của 3 biến ngẫu nhiên dự đoán từ một số luồng cùng loại Vì thế để biết 1 luồng bất kỳ chưa được phân loại thuộc về 1 lớp nào đó, người ta tiến hành tính toán 3 thành phần (thuộc tính) quan trọng trên (gọi là PCA) của luồng, và luồng sẽ thuộc lớp nào mà giá trị PCA vừa tính có xác suất giống với hồ sơ 1 luồng thuộc lớp

đó nhất Tuy nhiên các nhà nghiên cứu đã chỉ ra rằng độ chính xác của phương pháp phân loại này không cao khi so sánh các tập dữ liệu đo khác nhau, nghĩa là tính toán

hồ sơ luồng lưu lượng trên một tập dữ liệu và sau đó áp dụng (so sánh) với các luồng của một tập dữ liệu đo khác

Trong một nghiên cứu khác về việc phát hiện các tấn công lạ trong mạng,

Lee và Stolfo trong nghiên cứu [24] đã có một khảo sát tính toán tương đối đầy đủ

trên cơ sở dữ liệu mạng DARPA [46], theo đó họ đã tìm ra được 41 thuộc tính có thể sử dụng để mô tả 1 luồng lưu lượng của một ứng dụng điển hình cụ thể Để tìm

ra 41 thuộc tính này từ chín thuộc tính cơ bản trong [47], người ta áp dụng các phương pháp xử lý dữ liệu quan hệ để tìm các mối liên hệ giữa các bản ghi luồng lưu lượng nhằm xác định các điển hình và từ đó tìm ra 41 thuộc tính luồng Bốn mốt thuộc tính này lại được chia thành ba loại khác nhau: 9 trong số đó là các thuộc tính

cơ bản của các kết nối TCP/IP (bảng 4-1), 13 là các thuộc tính liên quan đến nội dung và cuối cùng 19 là các thuộc tính thống kê của các kết nối trong quá khứ

Paxson và Zhang đã có một nghiên cứu rất quan trọng, trong đó họ đã phát

triển một thuật toán đa mục đích để nhận dạng các phiên làm việc tương tác liên quan đến hành vi người dùng bằng cách kiểm tra kích thước gói, nhãn thời gian và hướng truyền của gói, theo một bộ tiêu chuẩn cho trước

Bảng 1-1 Chín thuộc tính cơ bản của kết nối mạng theo Lee và Stolfo

Trang 24

Thuộc tính Mô tả Kiểu giá trị

kiểu giao thức kiểu giao thức TCP, UDP rời rạc

dịch vụ dịch vụ mạng phía đích (HTTP, Telnet, vv ) rời rạc

số byte nguồn số lượng byte dữ liệu trao đổi giữa nguồn và đích liên tục

số byte đích số lượng byte dữ liệu trao đổi giữa đích và nguồn liên tục

cờ trạng thái của kết nối (hoạt động bình thường hoặc

Kết quả nghiên cứu cho thấy các gói dữ liệu do người dùng gõ vào từ bàn

phím có độ dài tương đối bé khoảng 20 bytes hoặc ít hơn và đồng thời do tốc độ gõ

của người dùng tương đối chậm nên trễ giữa hai gói liên tiếp dạng này nằm trong

khoảng 10-2000 ms Từ quan sát này, người ta đi xây dựng 3 dấu hiệu: (i) dấu hiệu

đánh giá tần suất xuất hiện khoảng thời gian giữa các gói (I.A.T) bé nằm trong

khoảng (10-2000)ms, (ii) dấu hiệu đánh giá tỉ lệ các gói có kích thước bé và (iii)

dấu hiệu định lượng các gói nhỏ được nhóm lại với nhau Do đó có thể nói Paxson

và Zhang đã phát triển một phương pháp nhận dạng các luồng lưu lượng tương tác,

bằng cách xây dựng và đánh giá 3 thuộc tính luồng lấy giá trị liên tục từ 0-1, giá trị

càng gần 1 càng chứng tỏ luồng lưu lượng có tính tương tác cao và một luồng lưu

lượng sẽ được phân loại là luồng tương tác nếu giá trị của cả 3 tham số trên nằm

trên một mức ngưỡng cho trước

Bảng 1-2 Các thuộc tính luồng tương tác theo Paxson và Zhang

Thuộc tính Mô tả Kiểu giá

trị

γ Dấu hiệu về tần suất xuất hiện của các gói nhỏ liên tiếp Liên tục

α Tỉ lệ thời gian giữa các thời điểm đến (I.A.T) của các gói

kích thước bé (<= 20 bytes) nằm trong khoảng (10-2000)ms Liên tục Ngoài ra Paxson và Zhang cũng đã phát triển một số các thuật toán đặc biệt

để nhận dạng các giao thức tương tác cụ thể, như: SSH, RLOGIN, TELNET, FTP,

NAPSTER (nhạc trực tuyến), vv Tuy nhiên đa phần các thuật toán này đều yêu

cầu phải truy nhập vào nội dung của gói tin, trừ thuật toán nhận dạng SSH thì ngoài

3 dấu hiệu trên còn thêm một thuộc tính khác là kích thước gói

Hernandez-Campo và các cộng sự trong khi nghiên cứu các luồng lưu

lượng TCP [48] đã cố gắng xác định tập các thông số thống kê của các kết nối TCP

Trang 25

để cho phép nhóm các kết nối lại thành những nhóm liên kết thống kê Họ cũng đã

nghiên cứu theo hướng tìm hiểu các biểu hiện của lưu lượng mà không cần sử dụng

số cổng ứng dụng cũng như không cần phải phân tích nội dung các gói tin, thay vào

đó họ cố gắng phân loại lưu lượng dựa trên đặc tính sử dụng tài nguyên mạng với

mục đích là tạo ra các nhóm lưu lượng tương đương, ví dụ nhóm lưu lượng truyền

file, nhóm lưu lượng thời gian thực hay nhóm lưu lượng tương tác Ý nghĩa khoa

học lớn nhất trong hướng nghiên cứu của họ là không sử dụng đơn vị dữ liệu là gói

mà thay vào đó họ định nghĩa một đơn vị dữ liệu gọi là ADU (đơn vị dữ liệu ứng

dụng), một ADU có thể chứa vài gói dữ liệu Cụ thể họ sử dụng sự thay đổi số thứ

tự khung phát và khung phúc đáp của giao thức TCP để xác định các biên của 1

ADU Sau đó thay vì mô hình hoá kiểu trao đổi các gói trong kết nối TCP họ mô

hình hoá sự trao đổi các ADU Mỗi kết nối TCP khi đó được mô tả bằng một véc tơ

n chiều (c 1 , c 2 , , c n ) , trong đó n là số ADU của kết nối, và gọi là các epoch Mỗi

epoch c i = (a i , b i , t i ), trong đó a i là số lượng byte truyền bởi bên khởi tạo kết nối, b i

là số lượng byte truyền theo hướng ngược lại, và ti là khoảng thời gian rỗi giữa

ADU đó và ADU tiếp theo.

Bảng 1-3 Các thuộc tính sử dụng để phân chia lưu lượng theo Hernandez-Campos

a max , b max, t max Số byte và s lớn nhất của mỗi epoch Liên tục

aµ, bµ, aδ, b δ Số lượng byte trung bình và độ lệch tiêu chuẩn

của mỗi epoch

Liên tục

a 1q , b 1q đại lượng thống kê thứ nhất (first quantile) Liên tục

a 2q , b 2q đại lượng thống kê thứ hai (second quantile) Liên tục

a 3q , b 3q đại lượng thống kê thứ ba (third quantile) Liên tục

ρ1 (a 1, n , b 1 n ) Tương quan Spearman Liên tục

ρ2 (b 1, n-1 , a 1 n ) Tương quan Spearman bước 1 Liên tục

Cuối cùng họ xác định được 26 thuộc tính tổng cộng sử dụng cho quá trình

phân loại lưu lượng, như trong bảng 4-3

Andrew W.Moore và Dennis Zuev trong nghiên cứu [49] đã áp dụng một

trong các phương pháp học tự động đơn giản nhất dựa trên công thức xác suất có

điều kiện Bayes để phân loại lưu lượng Internet thành các nhóm khác nhau như:

nhóm lưu lượng cụm, nhóm lưu lượng cơ sở dữ liệu, nhóm lưu lượng tương tác,

Trang 26

nhóm lưu lượng www, vv Với đầu vào là tập các thuộc tính của luồng lưu lượng TCP (tập các gói lưu lượng giữa 2 cờ SYN/RESET và FIN), họ áp dụng công thức Bayes như sau:

( ) ( | ) ( | )

điều kiện này có ưu điểm là đơn giản dễ thực hiện, tuy nhiên nhược điểm lớn nhất của nó là độ chính xác phân loại không cao

1.3 Kết luận về vấn đề nghiên cứu của luận án

Qua khảo sát các nghiên cứu liên quan ở trên có thể thấy, trong lĩnh vực nghiên cứu đặc tính hoá lưu lượng Internet, đa phần các nghiên cứu chỉ mới khảo sát đặc tính lưu lượng ở mức gói như phân bố kích thước gói, phân bố thời điểm đến của các gói và đặc tính cụm của chúng Một số nghiên cứu ban đầu về đặc tính lưu lượng ở mức luồng thì đa phần chỉ khảo sát các luồng lưu lượng của các phiên làm việc (mức ứng dụng) trên Internet và tập trung đánh giá về hai thông số là kích thước và thời lượng luồng Trong khi đó một phần quan trọng ảnh hưởng lớn đến

hiệu suất hoạt động của mạng là đặc tính và biểu hiện biến thiên của các luồng lưu lượng IP, đặc biệt là phân bố khoảng thời gian giữa các thời điểm đến (I.A.T) của chúng, lại chưa có một nghiên cứu và khảo sát chi tiết nào được thực

hiện

Về mô hình nhận dạng và phân loại lưu lượng Internet thì các phương pháp hiện có hoặc sử dụng số hiệu cổng ứng dụng trong phần tiêu đề của gói lưu lượng hoặc sử dụng các đặc thù của giao thức ứng dụng hoặc tiên tiến hơn là sử dụng một

số đặc tính thống kê đơn giản của luồng lưu lượng và phiên làm việc trên Internet Với sự phát triển của mạng Internet như hiện nay thì các phương pháp này bộc lộ

hai nhược điểm lớn là độ chính xác thấp do cơ chế cấp phát cổng ứng dụng động

và hiệu suất hoạt động của mô hình nhận dạng không cao do chúng tiêu thụ

nhiều tài nguyên của nút mạng và thời gian nhận dạng lâu vì thế không thể áp dụng cho các ứng dụng thời gian thực

Qua nghiên cứu của mình NCS nhận thấy một hướng khả quan là sử dụng kết quả phân tích biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP trên Internet để xác định các thuộc tính đặc trưng của chúng theo từng loại ứng dụng và

Trang 27

sử dụng các thuộc tính đặc trưng này làm dấu hiệu nhận biết lưu lượng của một loại ứng dụng nào đó

Do đó, trong phạm vi luận án, nghiên cứu sinh đã xác định và tập trung giải quyết hai vấn đề sau đây:

- Thực hiện khảo sát và phân tích các biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP, đặc biệt là phân bố khoảng thời gian giữa các thời điểm đến (I.A.T) của chúng

- Và từ đó tính toán tập thuộc tính đặc trưng của chúng Các thuộc tính này được phân tích và tính toán theo hướng nhận biết các dấu hiệu đặc trưng lưu lượng của các nhóm ứng dụng trên mạng Internet Trên cơ sở các dấu hiệu này tự động hoá quá trình nhận dạng và phân loại (luồng) lưu lượng Internet bằng cách áp

dụng các kỹ thuật học tự động của trí tuệ nhân tạo

Tuy nhiên để có thể áp dụng các mô hình phân tích thống kê và thuật toán nhận dạng tự động vào việc giải quyết các vấn đề nêu trên thì việc đầu tiên cần phải thực hiện là thu thập dữ liệu lưu lượng thực tế Để đảm bảo các kết quả phân tích cũng như nhận dạng ứng dụng đạt độ chính xác cao và mang tính tổng quát thì dữ liệu lưu lượng sử dụng trong phép phân tích phải đủ lớn, trên hai khía cạnh là (i) chứa lưu lượng của phần lớn các ứng dụng trên mạng Internet và (ii) phải là lưu lượng có tính đại diện cao cho mạng Internet và được thu thập trên một khoảng thời gian tương đối dài Để làm được điều này, với đặc điểm về sự đa dạng của các ứng dụng

cũng như qui mô rất lớn của mạng Internet, yêu cầu phải có các phương pháp và

kỹ thuật đặc biệt như: kỹ thuật nén dữ liệu đo, tổ chức lưu trữ một lượng lớn

dữ liệu lưu lượng và phương pháp xử lý chúng Đây thật sự là một thách thức rất lớn của các hệ thống đo lường và giám sát mạng Internet hiện nay và do đó giải quyết chúng cũng là một trong các mục tiêu nghiên cứu của luận án này

Trang 28

Ch−¬ng 2 ĐO LƯỜNG VÀ LẤY MẪU LƯU LƯỢNG

INTERNET

2.1 Giới thiệu chung

Có rất nhiều lý do phải thực hiện thu thập lưu lượng Internet và đo lường các thông số liên quan của nó, tuy nhiên có thể tóm tắt 3 mục tiêu chính là (i) để phục

vụ việc nghiên cứu đặc tính và sự biến thiên của lưu lượng, (ii) giám sát hiệu suất hoạt động và chất lượng dịch vụ của mạng và (iii) điều khiển truy nhập tài nguyên

và cung cấp chất lượng dịch vụ (QoS) mạng Hai mục tiêu sau liên quan chặt chẽ với nhau và chỉ khác nhau trên phương diện thang thời gian của phép đo Bảng 2-1 dưới đây trình bày các phép đo điển hình trong mạng Internet và ứng dụng tương ứng của chúng

Bảng 2-1 Một số phép đo điển hình trên mạng Internet

Tỉ lệ mất gói Khả năng kết nối Hiệu suất kết nối Giám sát định tuyến Phân bố kích thước gói, luồng, phiên làm việc

Phân bố thời điểm đến của các gói, luồng lưu lượng

Qui hoạch dung lượng Tối ưu hoá mạng Khai thác mạng Cung cấp chất lượng dịch vụ Cung cấp các dịch vụ giá trị gia tăng

Dự đoán xu hướng phát triển của lưu lượng

Điều khiển truy nhập mạng Tính cước

Người dùng Băng thông sẵn sàng

Thời gian đáp ứng

Tỉ lệ mất gói Khả năng kết nối Tốc độ kết nối Chất lượng dịch vụ Hiệu suất ứng dụng

Giám sát hiệu suất

Kế hoạch nâng cấp (ứng dụng) Thoả thuận mức dịch vụ Thiết lập mức chất lượng Tối ưu hoá việc phân phát nội dung Lập kế hoạch sử dụng

Phân IAT gói, luồng và phiên làm việc

Cải thiện thiết kế và cấu hình thiết bị

Cho phép giải quyết sự cố thiết

bị thời gian thực

Trang 29

Một cách tóm tắt, có thể phân loại các thông số cần đo của mạng Internet thành

4 nhóm như sau:

(i) Các thông số đo lường hệ số sử dụng mạng, bao gồm: số lượng gói, số lượng

byte, lưu lượng đỉnh, phân bố lưu lượng giữa các ứng dụng và giao thức (ii) Các thông số đo lường hiệu suất, như: RTT (trên các lớp khác nhau), tỉ lệ

huỷ gói, hay tỉ lệ gói va chạm trong các mạng cấu hình bus

(iii) Các thông số về độ sẵn sàng, bao gồm độ sẵn sàng đường đi, độ sẵn sàng của

liên kết và độ sẵn sàng của ứng dụng

(iv) Và cuối cùng là các thông số đo lường độ ổn định, bao gồm: tốc độ thay đổi

trạng thái đường truyền, bảng định tuyến, vv

Để thực hiện đo các thông số này người ta đã đưa ra nhiều phương pháp và kỹ thuật đo khác nhau, nhưng nhìn chung có thể chia thành hai phương pháp chính là:

- Đo lường chủ động

- Và đo lường thụ động

Đo lường chủ động thực hiện gửi dữ liệu, có thể là dữ liệu ứng dụng hoặc dữ

liệu thăm dò, từ một điểm đến một hoặc nhiều đích khác nhau sau đó bắt lại các gói thăm dò tại đầu kia hoặc các gói phản hồi trở lại để xác định phản ứng của mạng lên lưu lượng thăm dò và từ đó tính được trễ truyền đến nút đích tương ứng, RTT hoặc

tỉ lệ mất gói Phương pháp này có ưu điểm là dễ thực hiện tuy nhiên lại có nhược điểm là tạo ra lượng tải không cần thiết (lưu lượng thăm dò) trên mạng và các phần

tử mạng và đôi khi cho kết quả không chính xác hoặc thậm chí là không thể tiến hành được do các phần tử mạng có thể không hỗ trợ lưu lượng thăm dò hoặc có thể huỷ lưu lượng thăm dò khi tình trạng tải của nó cao, vv

Đo lường thụ động không gửi lưu lượng thăm dò vào mạng mà tiến hành bắt

lưu lượng thực của mạng tại các nút hay liên kết trên mạng để phân tích tìm ra các thông số cần đo như tốc độ phát gói của các ứng dụng hoặc nút mạng, đặc tính và phân bố lưu lượng trên mạng theo thời gian hay không gian, vv Ưu điểm của phương pháp đo này là không tạo ra lưu lượng vô ích trên mạng, tuy nhiên nhược điểm là yêu cầu hệ thống đo lường phải có khả năng lưu trữ và xử lý một lượng lớn

dữ liệu và với tốc độ cao Hơn nữa nhiều khi do chính sách bảo mật mà các nhà khai thác mạng không cho phép thực hiện các phép đo thụ động này

Qua đó có thể thấy đo lường chủ động thường được sử dụng cho các mục đích cần xác định các thông số hiệu suất của mạng như trễ truyền gói, RTT (trễ truyền hai chiều), tỉ lệ mất gói, vv còn đo lường thụ động lại phù hợp hơn cho các mục đích giám sát mạng trong đó người ta quan tâm đến việc quan sát các biểu hiện

Trang 30

và trạng thái biến thiên của tải lưu lượng trên mạng cũng như đảm bảo rằng mạng đang cung cấp các mức chất lượng và hiệu suất định trước

Mục tiêu đặt ra của luận án này là tìm hiểu các biểu hiện biến thiên của lưu lượng ứng dụng trên mạng Internet ở mức luồng và từ đó xây dựng các mô hình phân tích và phân loại lưu lượng thành các nhóm ứng dụng có đặc tính lưu lượng

tương tự nhau, do đó phương pháp đo lường sử dụng ở đây là đo lường thụ động

nhằm thu thập các gói lưu lượng vận chuyển qua điểm quan sát và các thông số liên quan của chúng

Vì thế phần tiếp theo của chương này sẽ trình bày các chi tiết kỹ thuật đo lường thụ động cũng như những vấn đề liên quan của nó Tuy nhiên trong báo cáo chuyên đề lần thứ 2 trong khuôn khổ luận án NCS đã khảo sát một cách chi tiết và đầy đủ về các phương pháp, kỹ thuật và công cụ đo lường chủ động lưu lượng Internet [1]

2.2 Đo lường thụ động

Như đã nói ở trên kỹ thuật đo lường thụ động thực hiện bắt các gói lưu lượng ứng dụng truyền trên mạng Internet qua điểm đo và lưu trữ lại dưới một định dạng nào đó (thường dưới dạng nhị phân) Đặc điểm của đo lường thụ động là nó không làm ảnh hưởng đến hoạt động của mạng do không yêu cầu phát lưu lượng thăm dò, tuy nhiên khó khăn là lượng dữ liệu đo là rất lớn Ví dụ, một kết nối 155Mbps với

hệ số sử dụng trung bình ~80Mbps và giả thiết kích thước gói trung bình là 750 byte, khi đó sẽ có khoảng 13000 gói/s hay nói cách khác thời gian đo kéo dài 1s sẽ tạo lượng dữ liệu là ~10MB Với dung lượng của các đĩa cứng hiệu suất cao hiện nay, ví dụ 40 GB, sẽ chỉ có thể lưu được dữ liệu đo trong 1 giờ Giải pháp khắc phục đơn giản nhất là chỉ lưu phần tiêu đề IP và tiêu đề giao thức vận chuyển (khoảng 40 byte/gói), lượng dữ liệu đo khi đó chỉ còn ~0,5 MB/s và vì thế cũng với đĩa cứng ở trên sẽ có thể lưu trữ dữ liệu đo trong 18 giờ

Ngoài ra thì dữ liệu đo thường có rất nhiều thông tin trùng lặp và không phải tất cả thông tin bắt được đều cần thiết, do đó khi chuẩn bị phép đo cần xác định trước những thông tin nào cần thu thập và thực hiện các biện pháp lọc và nén dữ liệu để loại bỏ các thông tin không cần thiết Nếu so sánh với việc đo lường trong các mạng chuyển mạch kênh truyền thống sẽ thấy có sự khác nhau rõ ràng ở đây: để lưu trữ các thông tin quan trọng của 1 cuộc điện thoại chỉ cần không gian lưu trữ

200 byte là đủ, tương ứng với độ dài cuộc thoại 25ms với tốc độ 64 kbps Nếu cuộc gọi có độ dài 3 phút (cuộc gọi điển hình) thì bản tin lưu trữ chỉ bằng 0,01% luồng

Trang 31

lưu lượng dữ liệu Trong các mạng dữ liệu thì phần thông tin tiêu đề của gói dữ liệu chỉ bằng 5% kích thước gói (40/750), do đó việc chỉ ghi lại phần tiêu đề của gói là một trong các phương pháp nén dữ liệu đo hiệu quả

Thực tế hiện nay có khá nhiều công cụ cho phép thu thập gói lưu lượng Internet được phát triển với các mục đích khác nhau như phân tích và hiệu chỉnh các giao thức mạng, phục vụ quá trình tính cước/thống kê, hay phức tạp hơn là nhằm phát hiện và ngăn chặn các vụ tấn công mạng Các công cụ này hoặc được thực hiện bằng phần mềm, phần cứng hoặc kết hợp cả hai Ví dụ, có thể sử dụng các thiết bị kiểm tra đường truyền hay thiết bị phân tích giao thức để đo lường lỗi đường truyền cũng như lỗi gói trong thời gian thực, hoặc sử dụng các công cụ phần mềm như TCPDUMP để quan sát các gói IP trên mạng LAN

Theo khảo sát của NCS cũng như đánh giá của các dự án nghiên cứu khác, điểm chung của các công cụ sẵn có là phần lớn trong số chúng là các phần mềm mã nguồn mở với độ ổn định rất kém, không có nhiều lựa chọn đối với thuật toán bắt gói, không có hoặc chỉ có thuật toán lấy mẫu đơn giản, không có khả năng bắt một lượng gói lớn và trên các liên kết mạng tốc độ cao, không có khả năng phân tích thống kê lưu lượng bắt được, vv Những công cụ tốt và hiệu suất cao thì lại đa phần là các sản phẩm thương mại hoá như NetFlow của hãng Cisco, thiết bị Endance của công ty Endance, vv Phụ lục B của luận án trình bày tóm tắt một số công cụ bắt gói và phân tích lưu lượng Internet quan trọng hiện có và các đặc điểm ứng dụng chính của chúng

Nói cách khác, theo khảo sát của NCS, các công cụ mã nguồn mở hiện không đáp ứng được các yêu cầu đặt ra trong việc thu thập lưu lượng gói mạng Internet

của luận án này, xét trên các mặt về độ ổn định, số lượng gói bắt được, khả năng

giải mã nhiều giao thức mạng, khả năng tổ chức lưu lượng đo dưới dạng cơ sở dữ liệu quan hệ hay khả năng phân tích thống kê Để giải quyết thách thức này NCS đã phát triển một phần mềm bắt gói và phân tích lưu lượng Internet dựa trên chuẩn thư

viện bắt gói LIBPCAP, gọi là BKCAP Cùng với các kết quả khác, thì đây cũng là

một trong những đóng góp (mặc dù chỉ là các cải tiến mang tính thực hiện nhiều hơn là tính hàn lâm) của tác giả trong lĩnh vực đo lường lưu lượng Internet

Nhưng trước hết phần tiếp theo sẽ giới thiệu tóm tắt khảo sát của nghiên cứu sinh về các phương pháp và mô hình đo lường thụ động đang được nghiên cứu và

sử dụng hiện nay cũng như các thách thức và tồn tại của chúng

Trang 32

2.2.1 Khảo sát các phương pháp và ứng dụng đo lường thụ động

Phần này trình bày một cách tóm tắt các kỹ thuật đo lường thụ động quan trọng liên quan trực tiếp đến việc giải quyết các vấn đề của luận án Chi tiết về các khía cạnh khác của kỹ thuật đo lường mạng Internet có thể tham khảo thêm tại [1], [20], [69-74], [76-93]

2.2.1.1 Tiến trình bắt giữ gói lưu lượng

Trong kỹ thuật đo lường thụ động thì tiến trình quan trọng nhất là bắt giữ các gói lưu lượng truyền trong mạng và phương pháp bắt giữ gói nhìn chung phụ thuộc vào công nghệ mạng sử dụng Trong các mạng dùng chung như Ethernet (IEEE 802.3) có thể thực hiện việc này tương đối dễ dàng bằng cách thiết lập cấu hình card

giao tiếp mạng (NIC) để nó hoạt động ở chế độ “promiscuous” cho phép chuyển tất

cả các gói nhìn thấy trong mạng cho hệ điều hành xử lý (ở chế độ bình thường NIC chỉ chuyển những gói nào có điạ chỉ MAC đích trùng với địa chỉ MAC của nó hoặc các gói phát quảng bá cho hệ điều hành) Trong trường hợp công nghệ mạng sử

dụng là các giao thức điểm-đến-điểm như ATM, Ethernet tốc độ cao hay các đường

nối trực tiếp, thì phương pháp bắt dữ liệu phong phú hơn Một trong các cách đó là thiết lập cấu hình thiết bị mạng (các bộ chuyển mạch lớp 2) để chúng chuyển tiếp các gói nhìn thấy ở một cổng đến cổng nối với thiết bị đo để ghi lại, tuy nhiên phương pháp này sẽ tạo ra một lượng Jitter nhất định cho các gói đo Cách khác là

“quan sát” thụ động, ví dụ dữ liệu truyền trên các liên kết cáp quang có thể được nhân đôi bằng các bộ chia tách quang mà thực chất là chuyển hướng một phần công suất tín hiệu ánh sáng sang một sợi quang khác dẫn đến thiết bị đo Vì thiết bị chia tách quang này hoàn toàn hoạt động ở chế độ thụ động nên phép đo sẽ không làm ảnh hưởng gì đến hoạt động bình thường của mạng nếu như năng lượng quang sau khi chia tách còn đủ lớn Phương pháp này cũng có thể được áp dụng cho các liên kết truyền dữ liệu dưới dạng tín hiệu điện, tuy nhiên với những liên kết tốc độ cao thì nó có thể gây ảnh hưởng đến hoạt động của mạng vì thiết bị đo có thể làm thay đổi đặc tính điện của liên kết do không phối hợp trở kháng

Một phương pháp bắt dữ liệu khác là sử dụng các thiết bị đo kiểu “xuyên qua” trong đó liên kết sẽ được kết nối với thiết bị đo, thiết bị trong khi bắt gói cũng đồng thời nhân đôi gói ra liên kết đầu ra một cách nguyên vẹn Tuy nhiên trong trường hợp nếu thiết bị đo không hoạt động tốt có thể làm méo dạng tín hiệu lưu lượng truyền trên mạng Dữ liệu bắt ở đây có thể là toàn bộ lưu lượng truyền qua hoặc theo hình thức lấy mẫu [3], biện pháp lấy mẫu thường hay được sử dụng trong các

Trang 33

phép đo vì nhiều lý do, như: nó kinh tế hơn, đáp ứng về thời gian tốt hơn, giảm kích thước tập dữ liệu đo, hay chỉ đơn thuần là do không có khả năng truy xuất đến toàn

bộ lưu lượng mạng, vv Tuy nhiên lấy mẫu cũng gây ra vấn đề về độ chính xác của

dữ liệu đo Theo [3], một kỹ thuật lấy mẫu lý tưởng phải có các đặc điểm sau:

- Việc lựa chọn các khung lưu lượng để bắt giữ phải đảm bảo tính ngẫu nhiên, không thiên vị hay bỏ qua bất kỳ loại lưu lượng nào

- Việc chọn các khung lưu lượng phải trên cơ sở càng nhiều càng tốt mà không làm ảnh hưởng đến các nhiệm vụ quan trọng khác

- Tạo ra một lượng tải xử lý tối thiểu đối với thiết bị đo

Thực tế cho thấy lấy mẫu là một trong những bước quan trọng của quá trình đo lường thụ động nên luận án sẽ dành phần 2.3 trong chương này để trình bày thêm về các kỹ thuật lấy mẫu lưu lượng Internet

2.2.1.2 Tiến trình phân tích thô dữ liệu gói bắt được

Các phép phân tích ban đầu đối với dữ liệu đo thường được thực hiện nhằm xác định các thuộc tính thống kê cơ bản của lưu lượng, như: phân bố số lượng gói/luồng trong khoảng thời gian cho trước hay phân bố kích thước gói/luồng, vv

và các thông số liên quan của phân bố như giá trị trung bình, giá trị trung tâm, độ lệch tiêu chuẩn, vv Mặc dù hình dạng của phân bố giả định của các tham số mạng cần quan tâm trong phép đo chưa biết, nhưng bằng Định lý giới hạn trung tâm

(Central Limit Theorem), hoàn toàn có thể nhận dạng được một số dịch chuyển

đáng kể của phân bố Và cho dù hình dạng phân bố của các tham số thế nào thì giá trị kỳ vọng của các mẫu lưu lượng đo thực cũng sẽ tiếp cận kỳ vọng của phân bố và

độ lệch tiêu chuẩn của chúng cũng sẽ tiếp cận độ lệch tiêu chuẩn của phân bố giả định chia cho căn bậc hai của kích thước mẫu Các thông số thống kê đó có thể dễ

dàng tính được dựa trên 3 giá trị của phép đo là số lượng mẫu, tổng giá trị và tổng

bình phương của các mẫu

Tuy nhiên do lưu lượng mạng thường thay đổi theo định kỳ, nên trị số “tiêu chuẩn” của các thông số lưu lượng cũng sẽ thay đổi theo, có thể khắc phục hiện tượng này bằng cách sử dụng các cửa sổ quan sát Các tác giả trong [3] đề xuất sử

dụng “cửa sổ thời gian cố định lấy mẫu ngẫu nhiên” vì nó không yêu cầu lưu trữ tất

cả các gói trong khoảng thời gian của cửa sổ

Các mức lưu lượng trong mạng chuyển mạch gói như Internet thường được

đo trên các thang thời gian tương đối dài (15-30 phút) so với kích thước cụm lưu lượng, nếu thang thời gian ngắn hơn thì lượng dữ liệu đo sẽ rất lớn và đôi khi phần

Trang 34

mềm hoặc thiết bị đo không đáp ứng được Các tác giả trong nghiên cứu [2] đã trình

bày một số mô tả thống kê của lưu lượng đo, như: PMR (tỉ lệ giá trị đỉnh/trị trung bình), CSQ (bình phương hệ số biến thiên), D c (lượng tương quan), IDC (chỉ số phân tán của các bộ đếm các thông số liên quan đến lưu lượng đo), P (mức độ đỉnh)

và tham số H (Hurst) Ba thông số đầu tiên (PMR, CSQ, Dc) được xem là các tham

số đo lường thực tế và người ta cũng đã nghiên cứu thêm về chúng với các dữ liệu

đo được từ mạng Ethernet (6 tệp dữ liệu, với 100000 gói/tệp) và mạng báo hiệu ISDN (với 5 dòng dữ liệu), kết quả cho thấy rằng nếu chọn được thang thời gian thích hợp thì thông số PMR có thể cung cấp thông tin về sự thiếu hụt băng thông

Các tác giả trong [3] đã tiến hành nghiên cứu đặc tính tự tương quan của trễ xếp hàng trên các dữ liệu đo của mạng Ethernet và mạng ISDN, kết quả cho thấy

mô hình GI/G/1 là phù hợp nhất cho việc mô tả dữ liệu đo Các tác giả cũng tiến hành so sánh trễ trung bình trong các trường hợp hệ số sử dụng khác nhau, khi hệ số

sử dụng >0,5 thì hai đường cong GI/G/1 và dữ liệu đo biến đổi khác nhau Khi xáo trộn một cách ngẫu nhiên tập dữ liệu đo nhằm triệt tiêu sự tương quan nhưng vẫn

duy trì phân bố biên (marginal) thì kết quả cho thấy đường cong phân bố dữ liệu đo

phù hợp vời đường cong GI/G/1 Tiếp theo đó các tác giả lại chia dữ liệu đo thành các khối có kích thước cố định từ 10-100 gói/khối nhằm duy trì được các cụm lưu lượng cục bộ, với kích thước khối là 15 gói các tác giả tiến hành xáo trộn các khối nhưng giữ nguyên thứ tự các gói trong từng khối, kết quả cho thấy trễ xếp hàng thay đổi so với dữ liệu đo gốc Tuy nhiên nếu xáo trộn cục bộ các khối (nghĩa là giữ nguyên thứ tự các khối nhưng thay đổi thứ tự các gói trong từng khối) thì dữ liệu đo cho thấy sự tương quan thời gian dài và phù hợp với dữ liệu đo gốc trên khía cạnh

trễ xếp hàng, do đó mô hình FBM (Fractional Brownian Motion) là phù hợp với dữ

liệu đo trừ trường hợp thang thời gian ~10ms thì hiện tượng phụ thuộc thời gian ngắn là phổ biến Đồng thời do sự giới hạn về độ dài của dữ liệu đo nên phân bố chiều dài hàng đợi của dữ liệu đo đối với các giá trị lớn suy giảm nhanh hơn so với

mô hình

Tóm lại các kết quả nghiên cứu trên cho thấy nếu mục đích nghiên cứu là phân tích và đánh giá các biểu hiện hoạt động và hiệu suất của mạng thì việc đo lường và phân tích dữ liệu đo tại các thang thời gian thấp là không cần thiết Các thang thời gian thấp (xấp xĩ giá trị RTT) chỉ phù hợp cho việc phân tích và dự đoán tham số H là tham số phản ánh mức độ co cụm của lưu lượng hoặc hiện tượng phân

bố vệt dài của các thông số lưu lượng tương ứng

Trang 35

Nghiên cứu [5] lại đề xuất phương pháp phân tích lưu lượng đo trong miền tần số, theo đó có thể chia lưu lượng thành 3 loại khác nhau, bao gồm: (i) loại tần số

thấp (|ω|≤ωL), (ii) loại tần số cao (|ω|≥ωH) và (iii) loại tần số trung bình

(ωL≤|ω|≤ωH) Kết quả nghiên cứu cho thấy tốc độ đỉnh của lưu lượng tần số thấp sẽ

xác định băng thông của liên kết trong khi việc nhớ đệm sẽ có ảnh hưởng nhiều đến lưu lượng tần số cao, do đó việc lựa chọn đúng các tần số ωL và ωH sẽ giúp ích nhiều cho công việc đo lường và phân tích lưu lượng mạng thức tế

2.2.1.3 Đo lường mạng đường trục

Các tác giả trong [6] đã tiến hành đo lưu lượng của kết nối giữa các mạng

LAN với nhau sử dụng công nghệ mạng WAN DQDB (Distributed Queuing Dual

Bus) trong thời gian 4 giờ (từ 11:00 – 15:00) của ngày làm việc Kết quả đo một lần

nữa xác nhận các kết luận của nghiên cứu trước đây trong [7] về tính tự đồng dạng

và có sự tương quan trong thời gian dài của lưu lượng Ngoài ra các tác giả còn tiến hành tính chỉ số phân tán IDC của dữ liệu đo (phần lớn là TCP/IP), kết quả cho thấy

tiến trình 2s-MMPP (two-stage Markov Modulated Poisson Process) là thích hợp cho việc phân tích dữ liệu đo ở thang thời gian ngắn còn mô hình FGN (Fractional

Gaussian Noise) là phù hợp cho quá trình phân tích ở các thang thời gian dài hơn

Một dự án nghiên cứu khác đó là [8] đã tiến hành thu thập lưu lượng mạng đường trục NSFNET của Mỹ và đánh giá tổng lưu lượng đo được, xu hướng biến đổi của nó cũng như phân bố lưu lượng theo từng giao thức Kết quả cho thấy sự biến thiên hàng ngày của kích thước gói sẽ tương ứng với hệ số sử dụng khi các ứng dụng truyền lưu lượng theo dạng từng khối một (như FTP) và hoạt động vào các giờ không bận Tuy nhiên họ cũng không thấy có sự xuất hiện của một qui luật biến thiên nhất định đối với thông số kích thước gói lưu lượng trên các thang thời gian dài Ngoài ra kết quả phân tích cũng cho thấy chỉ một số ít hệ thống trong mạng (31 trên tổng số 4254 mạng, hay 0.7%) đóng góp 1/2 tổng lưu lượng và 118 hệ thống (2,8%) nhận khoảng 50% lưu lượng, và 46,9% lưu lượng được trao đổi giữa 1500 cặp hệ thống (0,28% trên tổng số 560048 cặp có thể)

Các tác giả trong [9] đã nghiên cứu về cơ chế thiết lập thời gian time-out trong

việc định nghĩa luồng lưu lượng Internet Theo truyền thống người ta hay định nghĩa luồng lưu lượng TCP là tập các gói lưu lượng truyền giữa hai gói SYN (thiết lập kết nối TCP) và gói FIN (kết thúc kết nối TCP), tuy nhiên định nghĩa này không khả thi trong trường hợp đo lường các mạng lõi, vì những lý do sau:

- Thiết bị đo có thể huỷ đi một số gói nhất định

Trang 36

- Một trong các trạm đầu cuối (của kết nối TCP) có thể gặp sự cố (hệ thống bị khởi tạo lại hoặc kết nối mạng của nó bị đứt) nên nó sẽ không bao giờ gửi đi gói FIN

- Đường đi của kết nối (TCP) có thể bị thay đổi do đó phần còn lại của luồng

sẽ không còn nhìn thấy tại điểm đo nữa

- Hơn nữa cơ chế SYN/FIN chỉ có thể áp dụng với các luồng lưu lượng TCP, còn đối với lưu lượng UDP thì không thể biết được điểm bắt đầu và kết thúc của một luồng lưu lượng

Ngoài ra một định nghĩa luồng lưu lượng Internet cũng được sử dụng khá phổ biến đó là một dòng các gói truyền theo cả hai chiều [10] với một số tham số chung xác định trước, ví dụ cùng chung địa chỉ IP nguồn/đích và số hiệu cổng ứng dụng chẳng hạn Tuy nhiên, trong nghiên cứu trên dữ liệu đo có thời lượng 1 giờ của mạng đường trục NSFNET và một số mạng đô thị khác, ngoài các tham số chung

trên các tác giả còn đưa vào thông số khác là thời gian time-out, là khoảng thời gian

lớn nhất giữa 2 gói liên tiếp được xem là trong cùng một luồng Trong nghiên cứu

này các tác giả đã thử các giá trị time-out từ 2s - 2048s Kết quả cho thấy một số

giao thức ứng dụng như DNS và FTP không bị ảnh hưởng bởi việc lựa chọn giá trị

time-out, trong khi những ứng dụng khác như Telnet lại bị ảnh hưởng rất lớn Vấn

đề định nghĩa luồng lưu lượng sẽ được phân tích chi tiết trong chương 3 của luận

án

Một nghiên cứu khác về lưu lượng mạng đường trục đó là [11], các tác giả đã đo

lường lưu lượng mạng vBNS/Mỹ với thiết bị đo OC3MON và tiến hành phân tích

phân bố kích thước gói, đặc tính luồng lưu lượng cũng như phân bố lưu lượng theo từng giao thức Tuy nhiên do hạn chế của thiết bị đo OC3MON nên các luồng lưu lượng trong phép đo này thường bị kết thúc một cách cưỡng ép sau các khoảng thời gian 1 giờ, do đó làm ảnh hưởng đến các số liệu thống kê của các luồng lưu lượng dài như trong các ứng dụng multicast

2.2.1.4 Đo lường mạng nội bộ

Cũng đã có rất nhiều nghiên cứu thực hiện việc đo lường lưu lượng và các thuộc tính của chúng trong các mạng nội bộ (LAN) Một số nghiên cứu điển hình, như trong nghiên cứu [12] người ta đã thực hiện đo lường tải lưu lượng tổng hợp của các phiên làm việc trong 1 mạng nội bộ bao gồm các phiên đăng nhập mạng (nội bộ và từ xa) hay các phiên truy nhập ổ cứng mạng (nội bộ và từ xa) Từ kết quả

đo lường các tác giả đã ghi lại thời gian đáp ứng, khả thông và hệ số sử dụng các tài

Trang 37

nguyên dùng chung, theo đó đã phát hiện ra các điểm thắt cổ chai và đề xuất các biện pháp cải thiện hiệu suất hoạt động của mạng Một nghiên cứu khác là [13] đã

tiến hành thu thập lưu lượng mạng LAN trong vòng 5h bằng công cụ Tcpdump và

tiến hành phân tích dữ liệu đo để đặc tính hoá các ứng dụng khác nhau, kết quả phân tích bao gồm tốc độ (lưu lượng) trung bình trong từng phút, tỉ lệ phần trăm lưu lượng của từng giao thức ứng dụng và phân bố kích thước gói trên mạng

Cuối cùng nghiên cứu [14] đã tiến hành đo lường mạng Ethernet đường trục tại ĐH Florida/Mỹ, kết quả đo lường cho thấy tải lưu lượng mạng (hay hệ số sử dụng mạng) là khoảng 3,7%; 4,3%; và 6,9% trên các khoảng thời gian tương ứng: giờ bận, 30 phút và 10 phút Ngoài ra các tác giả cũng đã phân loại lưu lượng trong từng giờ thành 5 loại khác nhau tuỳ theo độ lớn của lưu lượng và cuối cùng phân bố kích thước gói được phát hiện là không đổi trong những khoảng thời gian 24h với kích thước trung bình là 138,6 byte

2.2.1.5 Đo lường mạng quay số (Dial-up và ADSL)

Trong [15] người ta đã trình bày nghiên cứu đo lường các cuộc gọi số liệu theo kiểu quay số trong vòng 30 ngày với tổng số cuộc gọi là 500 000 Trong phép đo này người ta tiến hành ghi lại những tham số sau của từng cuộc gọi:

• Thời điểm bắt đầu cuộc gọi

• Thời gian duy trì cuộc gọi

• Tổng số byte và gói thông tin truyền từ 1 người dùng đến mạng

• Và tổng số byte và gói thông tin truyền từ mạng đến 1 người dùng

Tuỳ theo kích thước trung bình của các gói truyền từ mạng đến người dùng, các tác giả đã phân loại các cuộc gọi thành 2 loại A và B Quan sát cho thấy thời gian duy trì cuộc gọi của các cuộc gọi thuộc loại A là khoảng 300s còn của loại B khoảng 1700s, ngoài ra kết quả cũng cho thấy tốc độ bit từ người dùng đến mạng của các cuộc gọi loại A cũng cao hơn Điều này dẫn đến suy luận là các cuộc gọi loại A là của các ứng dụng gửi và nhận thư điện tử còn các cuộc gọi loại B là của ứng dụng duyệt Web hay những công việc tương tự Nghiên cứu quá trình đến của các cuộc gọi cho thấy khoảng thời gian giữa thời điểm đến (i.a.t) của các cuộc gọi

có thể được mô hình hoá bằng phân bố hàm siêu mũ (Hyper-Exponential) hay là

tổng của một khoảng các phân bố hàm mũ

Trang 38

2.2.2 Các phương pháp nén dữ liệu đo

Dữ liệu trong các phép đo lưu lượng thụ động thường rất lớn do đó cần thiết phải thực hiện một số biện pháp nhằm giảm kích thước hay nói cách khác là nén dữ liệu này lại để có thể lưu trữ, vận chuyển và phân tích được dễ dàng hơn Một số phương pháp quan trọng đang được sử dụng hiện nay bao gồm: sử dụng các bản tóm tắt gói, sử dụng khái niệm luồng lưu lượng, và cuối cùng là biện pháp lấy mẫu

Sử dụng dấu hiệu gói lưu lượng

Một trong những cách có thể sử dụng để giảm lượng dữ liệu đo là sử dụng

“dấu hiệu” gói và luồng, phương pháp này có thể áp dụng cho các phép đo trong đó mục đích không phải là nội dung của các gói mà là xác định biểu hiện của các gói lưu lượng khi di chuyển qua các thành phần mạng khác nhau, ví dụ như các phép đo trễ hay tỉ lệ mất gói, sơ đồ định tuyến hay xác định các tấn công từ chối dịch vụ (DDoS)

Ý tưởng của phương pháp này là sử dụng một số thuật toán để tính toán 1 mô

tả tóm tắt (gọi là digest) nội dung của một gói lưu lượng, thuật toán đơn giản nhất

đó là cộng tất cả các byte của gói dữ liệu lại với nhau, tuy nhiên kết quả là tỉ lệ xung đột tương đối cao Bằng cách sử dụng các thuật toán tạo bản tóm tắt tinh vi hơn, ví

dụ sử dụng các cơ chế tạo mật mã như MD5 [16] và SHA [17] có thể giảm tỉ lệ va

chạm cho dù chỉ sử dụng một phần các giá trị Hash Cần lưu ý là khi tính các “mô

tả tóm tắt” của các gói cần phải bỏ qua những trường trong phần tiêu đề của gói IP

như DS, TTL và Checksum vì chúng có thể thay đổi trên đường đi của gói

Phương pháp này cũng có thể áp dụng cho trường hợp các trang tài liệu web

vì nếu một trang web được truyền nhiều lần trên cùng một liên kết người ta thường

sử dụng cơ chế nhớ tạm thời (caching) để giảm lượng thông tin tải trên mạng

Sử dụng khái niệm luồng lưu lượng

Thực tế mỗi kết nối trên mạng Internet chứa nhiều gói IP và các gói liên tiếp nhau thường có phần tiêu đề tương tự nhau, ví dụ trong một phiên làm việc UDP hoặc TCP bình thường, các gói chỉ có một số ít trường khác nhau, là:

- Chỉ số nhận dạng khối dữ liệu IP, được sử dụng trong trường hợp cần phải phân đoạn khối dữ liệu TCP, tuy nhiên trong các phiên bản TCP mới nhất người ta tránh tối đa việc phân đoạn dữ liệu TCP bằng các bản tin khám phá PMTU

- Trường checksum của gói IP

- Số thứ tự khung dữ liệu TCP

- Số thứ tự khung phúc đáp (ACK )của TCP

Trang 39

- UDP hoặc TCP Checksum

Trường chỉ số nhận dạng khối dữ liệu IP cần thiết trong một số trường hợp, ví

dụ để xác định các khối dữ liệu IP trùng lắp, tuy nhiên đối với bài toán mô hình hoá nguồn hoặc luồng dữ liệu thì nó là không cần thiết Về chỉ số này cộng đồng nghiên cứu mạng Internet cũng đã thảo luận rất nhiều về sự cần thiết của nó và đa số thống nhất với nhau là có thể bỏ trường này vì các phiên bản TCP mới hiện nay và giao

thức IPv6 không cho phép phân đoạn dữ liệu TCP Các trường checksum được tính

từ dữ liệu, đối với trường Checksum của gói IP thì hoàn toàn có thể kiểm tra được

do nó chỉ tính trong phần tiêu đề của gói, nhưng phần checksum của TCP hoặc UDP

thì cần phải bắt cả khối dữ liệu Đối với trường TTL, nó sẽ thay đổi nếu như đường

đi của các khối dữ liệu thay đổi, nên nếu mục đích phép đo là theo dõi các thay đổi trong bảng định tuyến của mạng thì cần phải ghi lại giá trị TTL

Cuối cùng các trường số thứ tự gói TCP truyền và ACK của các gói liên tiếp nhau của cùng một luồng dữ liệu thực tế gần bằng nhau, nếu không có sự thay đổi thứ tự hay mất các khối dữ liệu truyền thì chúng khác nhau 1 lượng đúng bằng kích thước phần tải tin của mỗi gói

Tóm lại bằng cách kết hợp tất cả các phương pháp loại bỏ các trường không cần thiết hoàn toàn có thể nén phần tiêu đề của các gói dữ liệu lưu lượng với tỉ lệ 10:3 hoặc thậm chí tốt hơn như trong [18] và [19]

Cuối cùng phương pháp hay được áp dụng nhất hiện nay để nén dữ liệu đo là phương pháp lấy mẫu lưu lượng Phương pháp này được trình bày chi tiết ở phần 2.3

2.2.3 Vấn đề đồng bộ thời gian

Trong những phép đo bao gồm nhiều điểm đo và kết quả đo có chứa các nhãn thời gian thì có một vấn đề nảy sinh là cần phải đồng bộ thời gian giữa các điểm đo Một trong các phương pháp giải quyết thách thức này là sử dụng giao thức phân

phối thời gian qua mạng NTP (Network Time Protocol) để đồng bộ nguồn đồng hồ

của các nút đo với một đồng hồ chuẩn, tuy nhiên phương pháp này có một số nhược điểm sau:

- NTP tập trung vào độ chính xác trên thang thời gian dài nên với các thang thời gian đo ngắn nó không chính xác và đồng thời còn có một lượng dịch chuyển nhất định

Trang 40

- Thông tin thời gian của NTP cũng phải được truyền qua mạng trong quá trình đồng bộ hoá nên cũng chịu một lượng biến thiên trễ (Jitter) nhất định, nghĩa là bản thân nó cũng không phải là hoàn toàn chính xác

- Hai hệ thống máy tính sử dụng giao thức NTP chỉ có thể đồng bộ hoá nguồn đồng hồ của chúng đến xấp xỉ 10ms, nên những phép đo yêu cầu độ phân giải thời gian cao hơn thì không thể áp dụng NTP

Ngoài ra, nguồn đồng hồ thời gian thực trong các máy tính thường không được chính xác lắm, thường có sai số vài giây trong một ngày, ví dụ: với sai số của nguồn đồng hồ là 5s một ngày thì trong 10 phút sẽ có sai số là 35ms, xấp xĩ với trễ truyền gói trên mạng, do đó nếu chúng ta tiến hành đo trễ truyền một chiều thì có thể thấy

là kết quả đo sẽ bị sai nghiêm trọng sau một khoảng thời gian đo ngắn và kết quả cuối cùng là không đồng nhất với nhau

Vì thế đối với những phép đo yêu cầu độ chính xác cao về thời gian, người ta thường cung cấp thông tin đồng hồ ngoài băng sử dụng sóng vô tuyến trong đó phương pháp hữu ích nhất là sử dụng nguồn thông tin định thời của hệ thống GPS

Hệ thống định vị toàn cầu GPS hiện nay cung cấp dịch vụ cho người dùng ở khắp mọi nơi và có thể cung cấp nguồn đồng hồ với độ phân giải lên đến 350ns và độ chính xác 95% [20]

Tuy nhiên trong luận án này, bản chất phép đo là thụ động bắt các gói truyền trên mạng nên vấn đề này không ảnh hưởng gì đến kết qủa đo cũng như đến quá trình phân tích dữ liệu đo nên nghiên cứu sinh không đi sâu xây dựng giải pháp đồng bộ thời gian cho các phép đo

2.3 Kỹ thuật lấy mẫu lưu lượng mạng Internet

Việc lấy mẫu lưu lượng Internet là nhằm giảm lượng dữ liệu đo và/hoặc để có thể đo được các liên kết tốc độ cao mà tốc độ của thiết bị đo không đáp ứng được Lấy mẫu có thể được thực hiện trong quá trình bắt giữ gói hoặc sau khi đã có dữ liệu đo tuỳ vào bản chất của bài toán và hạ tầng mạng

Hiện nay có một số phương pháp và kỹ thuật lấy mẫu lưu lượng khác nhau có thể áp dụng tuỳ theo yêu cầu xử lý và độ chính xác của phép phân tích và nhìn

chung có thể chia chúng thành hai loại chính bao gồm (i) lấy mẫu theo thời gian và (ii) lấy mẫu theo sự kiện

• Lấy mẫu theo thời gian là một trong những kỹ thuật xử lý tín hiệu truyền thống

và trong lĩnh vực đo lường lưu lượng khái niệm này được hiểu như sau: giả thiết

dữ liệu lưu lượng đo được là D bao gồm 3 thông số quan trọng là: thời điểm đến

Định dạng
Số trang	162
Dung lượng	2,93 MB