1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số phát hiện mới trong đo lường và phân tích lưu lượng internet. Mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng769

162 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 162
Dung lượng 5,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Danh mục các chữ ế vi t tắt Một số từ viết tắt quan trọng sử dụng trong luận án ADU/PDU Đơn vị ữ ệ ứ d li u ng d ng/giao th c ụ ứ Application/Protocol Data Unit BKCAP Phần mềm bắt gói và

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN TÀI HƯNG

MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN TÍCH LƯU LƯỢNG INTERNET MÔ HÌNH VÀ CÁC THUỘC

LUẬN ÁN TIẾN SĨ KỸ THU T Ậ

HÀ NỘI - 2007

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN TÀI HƯNG

MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN TÍCH LƯU LƯỢNG INTERNET MÔ HÌNH VÀ CÁC THUỘC TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG

Chuyên nghành: Kỹ thuật viễn thông

Trang 3

Lời cam đoan

Tôi xin cam đoan luận án này là công trình nghiên cứu của chính bản thân Các k t ếquả nghiên cứu trong luận án là trung thực và chưa được công bố trong bất kỳ công trình nào khác

Tác giả luận án

NGUYỄN TÀI HƯNG

Trang 4

Mục lục

Lời cam đoan i

Mục lục ii

Danh mục các chữ viết tắt v

Danh mục các từ khoá và ký hi u vi ệ Danh mục các hình v và đồ thị vii ẽ Danh mục các b ng ix ả M Ở ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Đối tượng, mục tiêu và ph m vi nghiên cứu của luận án 2 ạ 3 Phương pháp nghiên cứu của luận án 3

4 Ý nghĩa khoa học và thực tiễn của luận án 5

5 Bố ụ c c của luận án 5

Ch−¬ng 1 TỔNG QUAN VỀ PHÂN TÍCH VÀ NHẬN DẠNG LUỒNG LƯU LƯỢNG INTERNET 8

1.1 Nhu cầu phân tích và nhận dạng luồng lưu lượng ứng dụng Internet 8

1.2 Các nghiên cứu liên quan 10

1.3 Kết luận về ấ v n đề nghiên cứu của luận án 15

Ch−¬ng 2 ĐO LƯỜNG VÀ LẤY MẪU LƯU LƯỢNG INTERNET 17

2.1 Giới thiệu chung 17

2.2 Đo lường thụ động 19

2.2.1 Khảo sát các ph ng pháp và ươ ứng dụng đ ường thụ động 21 o l 2.2.1.1 Tiến trình bắt giữ gói lưu lượng 21

2.2.1.2 Tiến trình phân tích thô dữ liệu gói bắt được 22

2.2.1.3 Đo lường mạng đường trục 24

2.2.1.4 Đo lường mạng nội bộ 25

2.2.1.5 Đo lường mạng quay số (Dial-up và ADSL) 26

2.2.2 Các phương pháp nén dữ liệ đu o 27

2.2.3 Vấn đề đồng b thời gian 28 ộ 2.3 Kỹ thuật lấy mẫu lưu lượng mạng Internet 29

2.3.1 Thuật toán lấy mẫu 30

2.3.1.1 Lấy mẫu h th ng 30 ệ ố 2.3.1.2 Lấy mẫu ng u nhiên 31 ẫ 2.3.1.3 Lấy mẫu phân t ng 32 ầ 2.3.2 Tần số ấ l y mẫu và kho ng lả ấy mẫu 32

2.4 Phần mềm BKCAP 33

2.4.1 Yêu cầu thiết kế 33

2.4.2 Thiết kế ệ h thống 35

2.4.3 Đánh giá hiệu suất hoạt động của BKCAP 39

2.5 Tổ chức cơ ở ữ s d liệu đo 40

2.5.1 Các tệp dữ liệu lưu l ng sượ ử ụ d ng trong luận án 40

2.5.2 Tỉ ệ l phần trăm số lượng luồng theo từng ng dụng 44 ứ 2.6 Kết luận 45

Ch−¬ng 3 PHÂN TÍCH LUỒNG L U LƯỢNG IP TRÊN INTERNET 47 Ư 3.1 Khái niệm luồng l u lư ượng trên Internet 48

Trang 5

3.1.1 Định nghĩa 48

3.1.2 Cơ chế ế k t thúc luồng 49

3.1.3 Các thuộc tính của luồng 50

3.2 Phân tích các luồng l u lư ượng IP trên Internet 51

3.2.1 Cơ ở s toán học thống kê 51

3.2.1.1 Lý thuyết lưu lượng và Internet 51

3.2.1.2 Phương pháp dự đ oán phân bố phù hợp với dữ liệu đo thực nghiệm 55

3.2.2 Phân tích phân bố I.A.T của các luồng lưu lượng IP 60

3.2.2.1 Phân bố I.A.T của các luồng lưu lượng IP của tất cả các ứng dụng 60

3.2.2.2 Phân bố I.A.T c a các lu ng l u lượng IP c a t ng ng d ng riêng l 67 ủ ồ ư ủ ừ ứ ụ ẽ 3.2.2.3 Mô hình đánh giá độ dài ph n uôi c a phân b quá trình đến của các ầ đ ủ ố luồng lưu lượng IP 73

3.2.3 Phân bố kích thước luồng lưu lượng IP 80

3.2.3.1 Phân bố kích thước luồng theo gói 81

3.2.3.2 Phân bố kích thước luồng theo byte 82

3.2.3.3 Phân bố thời lượng luồng 84

3.3 Kết luận 85

Ch−¬ng 4 MÔ HÌNH TỰ ĐỘNG NH N D NG VÀ PHÂN LOẠI LUỒNG LƯU Ậ Ạ LƯỢNG IP TRÊN INTERNET 87

4.1 Giới thiệu chung 87

4.2 Cơ ở s lý thuyết học tự động 89

4.2.1 Định nghĩa 89

4.2.2 Thành phần 89

4.2.3 Học có giám sát và học không có giám sát 90

4.2.4 Lựa chọn thuộc tính 90

4.2.4.1 Tổ chức tìm kiếm 91

4.2.4.2 Mô hình hoán đổi 92

4.2.4.3 Mô hình b l c 93 ộ ọ 4.2.5 Thuật toán phân loại (thuật toán học) 94

4.2.5.1 Thuật toán C4.5 94

4.2.5.2 Thuật toán Naive Bayes / NBD 96

4.2.5.3 Thuật toán lân cận g n nhầ ất (kNN) 97

4.2.5.4 AdaBoost – kỹ thuật “Boosting” 97

4.3 Xây dựng mô hình nhận dạng và phân loại luồng l u lư ượng IP bằng phương pháp học tự động 98

4.3.1 Chuẩn bị ữ d liệu 100

4.3.2 Xây dựng tập các thuộc tính của luồng lư ượng IP 101 u l 4.3.2.1 Các thuộc tính liên quan đến các phân bố ề ả v t i tin và i.a.t gói và luồng 105 4.3.2.2 Các thuộc tính xác định tính qui luật của tải tin và tốc độ truyền 108

4.3.2.3 Các thuộc tính thể hiện tính chất tương tác: dòng lệnh và bàn phím 109

4.3.2.4 Các thuộc tính thể hiện các phiên làm việc kiểu truyền dữ liệu 111

4.3.2.5 Các thuộc tính thể hiện hướng truyền 112

4.3.3 Lớp lưu lượng 115

4.3.4 Công cụ phân tích 117

4.3.5 Phương pháp đánh giá hiệu suất của các bộ phân loại 119

4.3.6 Lựa chọn thuộc tính 121

Trang 6

4.3.7 Xây dựng mô hình 127

4.3.8 Mô phỏng và đánh giá mô hình 128

4.3.8.1 Tỉ ệ l phân loạ đi úng và sai 128

4.3.8.2 Tốc độ phân lo i và thạ ời gian học 132

4.3.8.3 Sự phụ thuộc vào kích thước dữ liệu mẫu 133

4.3.8.4 Sự phụ thuộc vào thời gian time-out của luồng 133

4.3.8.5 Sự phụ thuộc vào kích thước cửa sổ luồng 135

4.4 Kết luận 137

KẾT LUẬN VÀ KIẾN NGHỊ 139

1 Kết quả nghiên cứu 139

2 Hướng phát triển của đề tài 140

DANH MỤC CÁC CÔNG TRÌNH 141

TÀI LIỆU THAM KHẢO 142

PHỤ LỤC A - MỘT SỐ CÔNG CỤ THU THẬP VÀ ĐO LƯỜNG LƯU LƯỢNG GÓI HIỆN CÓ 149

Trang 7

Danh mục các chữ ế vi t tắt

Một số từ viết tắt quan trọng sử dụng trong luận án

ADU/PDU Đơn vị ữ ệ ứ d li u ng d ng/giao th c ụ ứ Application/Protocol Data Unit BKCAP Phần mềm bắt gói và phân tích lưu

lượng Internet

Bach Khoa Packet Capturing

BKCLASS Phần mềm phân loại lưu lượng

Internet

Bach Khoa Traffic Classification

CDF/CCDF Hàm mật độ xác suất luỹ tích/luỹ

tích bù

Complement/Cummulative Density Function

I.A.T Khoảng thời gian giữa các thờ đ ểi i m

đến

Inter-arrival time

ICMP Giao thứ đ ềc i u khiển Internet Internet Control Message

Protocol

IG Lượng thông tin (của 1 thuộc tính) Information Gain

IPFIX kiến trúc đo lường luồng lưu lượng

IP

IP Flow Import Export

HFA Bộ công cụ tạo luồng lưu lượng HUT Flow Analysis

Secured

MAC Giao thứ đ ềc i u khiển truy nhập Media Access Control

POP3 Giao thức nhận thư đ ệ i n tử Post Office Protocol v3

SSE Chỉ số kiểm tra mức độ phù hợp Sum of Square due to Error SSH Chương trình truy nhập từ xa an

toàn

Secured SHell

R2 Chỉ số kiểm tra mức độ phù hợp R-Square

rlogin Chương trình truy nhập từ xa Remote login

SMTP Giao thức gửi thư đ ệ i n tử Simple Mail Transfer Protocol RTT Trễ phía phát ->phía thu ->phía phát Round Trip Time

TTL Thời gian sống của gói trên mạng Time to live

TP, FP, TN,

FN

Các chỉ số tính độ tin c y c a thu t ậ ủ ậtoán học tự động

True positive, False Positive, True Negative & False Negative

Trang 8

Danh mục các từ khoá và ký hiệu

Các từ khoá

Học tự động Là chương trình máy tính hoặc thuật toán cho phép h c tự động các ọ

qui luật (phân loại) t d liệu mẫu ừ ữPhân loại lưu lượng Là quá trình nhận dạng lưu lượng c a 1 ng d ng ho c nhóm ng ủ ứ ụ ặ ứ

dụng trên mạng Internet từ đó phân chia thành các nhóm khác nhau Phân tích luồng Là quá trình áp dụng các kỹ thuật và mô hình thống kê toán học để

tìm hiểu các đặc tính đặc trưng của các luồng lưu lượng Internet Vệt dài Là đặc tính của các phân bố có hàm mật độ xác suất có phầ đn uôi

kéo dài, hay có nghĩa có lượng biến thiên vô hạn (suy giảm chậm theo qui luật luỹ thừa)

AdaBoost Một kỹ thuật học tự động cho phép tăng độ chính xác c a thuật toán ủ

học bằng cách kết hợp nhiều thuật toán học kém chính xác hơn Goodness-of-fit Mức độ phù hợp giữa phân b dữ ệố li u th c nghi m v i một phân bố ự ệ ớ

giả định nào đấy Promiscuous Chế độ hoạt động của các card giao tiếp mạng cho phép chuy n ti p ể ế

tất cả các gói lưu thông trong mạng Script Một chương trình con cho phép thực hiện mà không cần biên dịch

trước sang ngôn ngữ máy

Time-out Khoảng thời gian tối đa giữa hai gói liên tiếp được xem là cùng 1

luồng Trace Tệp lưu trữ các gói lưu lượng bắt được theo khuôn dạng của

Tcpdump

Các ký hiệu

Phần lớn các ký hiệu trong luận văn này tuân theo ký hiệu chuẩn Các phương trình được đánh số ầ ự tu n t riêng Các ký hi u hay dùng trong lu n v n được li t kê trong ệ ậ ă ệbảng dưới đây

Bảng một số ký hiệu

α Tham số ủ c a các phân bố ệ v t dài, thể hiện mức độ kéo dài củ a ph n đuôi của phân bố ầ

τ Biến thời gian time-out trong định nghĩa các luồng lưu lượng IP

H(X) Entropy của bi n ngẫu nhiên X ế

P(X=y) Xác suất biến ngẫu nhiên X lấy giá trị y

P(cj|y) Xác suất dữ liệu y thuộc lớp cj

Trang 9

Danh mục các hình vẽ và đồ thị

Hình 2-1 Kiến trúc phần mềm bắt và phân tích gói lưu lượng Internet BKCAP 37

Hình 2-2 Tổ chức cơ ở ữ s d liệu luồng lưu lượng đo được trong BKCAP 38

Hình 2-3 S ơ đồ bố trí hệ thống đo và thu thập dữ liệu lưu lượng thực tế tại EVN Telecom 40

Hình 2-4 Định dạng fs 42

Hình 2-5 Phân chia các gói lưu lượng thành các luồng tương ứng 43

Hình 2-6 Phân bố ố s lượng luồng giữa các ứng dụng, thống kê từ các tệp dữ liệu o đ DL1 và DL7 45

Hình 3-1 Đồ thị log-log CCDF của các phân bố ệ v t dài (theo [34][35]) 54

Hình 3-2 Hàm CDF I.A.T của các luồng lưu lượng thực nghiệm trong tệp dữ liệu DL1, với các giá trị time-out khác nhau 61

Hình 3-3 Biểu đồ phân bố I.A.T luồng lưu lượng của một số ữ ệ đ d li u o 64

Hình 3-4 Hàm ccdf I.A.T của các luồng lưu lượng (a) trên thang tuyến tính và (b) thang logarit – DL2, 60s 66

Hình 3-5 Phân bố I.A.T của các luồng lưu lượng của một số ứng dụng chính trong hai tập dữ liệu DL1 và DL4 Tần suất xuất hiện ở đây là các giá trị đã được chuẩn hoá 72

Hình 3-6 Đồ thị Q-Q giữa dữ liệu thực nghiệm củ ứa ng dụng imap và các phân bố giả định, DL1, 60s 75

Hình 3-7 Vùng đuôi dài của đồ thị log-log CCDF của phân bố I.A.T luồng lưu lượng Internet (2, 4, 8, 16, 32, 64, 128, 256 và 512 là các mức tổng hợp dữ liệu tương ứng) 78

Hình 3-8 Đồ thị log-log CCDF phân bố kích thước luồng lưu lượng Internet theo gói trong các tệp dữ liệu DL1 và DL7 và thời gian time-out là 60s 81

Hình 3-9 Đồ thị CCDF (thang logarit) phân bố kích thước các luồng lưu lượng IP trong dữ liệu DL1 theo byte 83

Hình 3-10 Đồ thị CDF phân bố kích thước thời lượng các luồng lưu lượng IP, xét trong dữ liệu DL1 và thời gian Time-out = 60s 84

Hình 4-1 Mô hình phân loại lư ượng Internet ở ứu l m c luồng 88

Hình 4-2 Mô hình lựa chọn thu c tính cho quá trình phân loại tự độngộ 93

Hình 4-3 Lưu đồ thuật toán phân loại lu ng l u lượng s d ng k thu t h c t độngồ ư ử ụ ỹ ậ ọ ự .100

Hình 4-4 Mô phỏng khái niệm các phân bố ờ r i rạc tải tin và I.A.T của các gói thuộc luồng 107

Hình 4-5 Phân bố ố s lượng luồng trong cửa sổ quan sát 108

Hình 4-6 Lưu đồ qúa trình họ đc, ánh giá và kiểm tra mô hình phân loại 121

Hình 4-7 Thứ ự t 20 thuộc tính quan trọng nhất 126

Hình 4-8 Độ chính xác của các thuật toán phân loại khác nhau khi th c hi n trên ự ệ toàn bộ 42 thuộc tính 129

Hình 4-9 Độ chính xác của các thuật toán phân loại khác nhau khi th c hi n trên 15 ự ệ thuộc tính quan trọng nhất 129

Hình 4-10 Độ tin cậy hay tỉ ệ l phân loạ đi úng của các lớp lư ượu l ng tương ứng 130

Trang 10

Hình 4-11 Độ tin cậy phân loại của các lớp l u lư ượng tính trung bình trên tất cả các tập d ữliệu và các thuật toán học 131 Hình 4-12 Độ chính xác trung bình theo kích thước tập dữ liệu mẫu 133 Hình 4-13 Độ chính xác phân loại theo thời gian time-out của luồng, tệp dữ liệu mẫu là DL7 và sử dụng cả 42 thuộc tính luồng 134 Hình 4-14 Biến thiên độ tin cậy theo thời gian time-out của luồng, d li u DL7, s ữ ệ ửdụng 42 thuộc tính 135 Hình 4-15 Sự phụ thuộc giữa độ chính xác và khoảng chồng lấn cửa sổ 137 Hình 4-16 Sự phụ thuộc giữa độ chính xác và kích thước cửa sổ 137

Trang 11

Danh mục các bảng

Bảng 1-1 Chín thuộc tính cơ bản của kết nối mạng theo Lee và Stolfo 12

Bảng 1-2 Các thuộc tính luồng tương tác theo Paxson và Zhang 13

Bảng 1-3 Các thuộc tính sử ụ d ng để phân chia l u lượng theo Hernandez-Camposư 14 Bảng 2-1 Một số phép đo đ ển hình trên mạng Interneti 17

Bảng 2-2 Ví dụ ệ t p xml mô t c u trúc giao th c RTPả ấ ứ 37

Bảng 2-3 Các tệp dữ liệu lưu lượng Internet dùng trong luận án 41

Bảng 2-4 Dữ liệu luồng lưu lượng phục vụ phân tích quá trình đến 43

Bảng 3-1 Các thông số thống kê thời đ ểm đến (I.A.T) của các luồng lưu lượngi 61

Bảng 3-2 Tóm tắt kết quả sự phù hợp giữa phân bố i.a.t thực nghiệm của các luồng lưu lượng của các ứng dụng trong dữ liệu DL7 (τ = 60s) với một số phân bố giả định .79

Bảng 4-1 Số lượng luồng của mỗi tệp dữ liệu tương ứng 101

Bảng 4-2 ập các thuộc tính của luồng phụT c v bài toán phân loạ ưụ i l u lượng 102

Bảng 4-3 Danh sách các lớp lưu lượng 116

Bảng 4-4 Danh sách các thuộc tính luồng lưu lượng IP 122

Bảng 4-5 Kết qủa lựa chọn thuộc tính theo giải thuật CFS 124

Bảng 4-6 Kết quả lựa chọn thuộc tính theo các mô hình bộ lọc khác và mô hình hoán đổi .125

Bảng 4-7 Danh sách 15 thuộc tính tốt nhất 126

Bảng 4-8 Các thông số hiệu suất của các thuật toán phân loại lưu lượng 132

Trang 12

M Ở ĐẦU

1 Tính cấp thiết của đề tài

Xu hướng hội tụ công nghệ trong lĩnh vực viễn thông đã làm cho mạng Internet trở thành hạ tầng truy n thông ch yếề ủ u c a t t c các ng d ng thông tin ủ ấ ả ứ ụliên lạc, từ các ứng dụng truyền thống như duyệt web, gửi thư đ ệ i n tử, truy n file, ềvv đến các ứng dụng thời gian thực nh VoIP, truy n hình tr c tuy n, trò ch i ư ề ự ế ơtrực tuyến và các dịch v chia sụ ẽ Vi c tri n khai các ng d ng th i gian th c này ệ ể ứ ụ ờ ựtạo ra thách thức rất lớn đối với Internet trên hai khía cạnh: (i) cung cấp chất lượng dịch vụ (QoS) và (ii) giám sát mức chất lượng dịch vụ do mạng cung cấp

Để xây dựng ki n trúc cung c p QoS và/ho c mô hình giám sát m c ch t ế ấ ặ ứ ấlượng mà mạng cung cấp, việc đầu tiên và đóng vai trò quan trọng nhất là phải xác định được các biểu hi n hoạệ t động và bi n thiên củế a l u lượng c a các ng d ng ư ủ ứ ụtrên Internet, từ đ ó tìm ra các đặc trưng lưu lượng của từng loạ ứi ng dụng Từ các đặc trưng này s ti n hành xây d ng các mô hình nh n d ng l u lượng ng dụng và ẽ ế ự ậ ạ ư ứ

do đó có thể áp dụng các mứ ưc u tiên xử lý khác nhau với chúng

Thực tế cũng ã có nhi u nghiên c u v các đặc tính và bi u hi n bi n thiên đ ề ứ ề ể ệ ếcủa lưu lượng Internet Có thể chỉ ra những nghiên c u iển hình bao gồm: On the ứ đSelf-Similar Nature of Ethernet Traffic (bản đầy đủ),” IEEE/ACM Transactions on Networking, 2(1), trang 1-13, 1994, của các tác giả Leland, W., M Taqqu, W Willinger, và D Wilson; Wide area Internet traffic patterns and characteristics, IEEE Network Mag Tập 11(6), trang 10-23, 1997 của các tác giả Kevin Thompson, Gregory J Miller, và Rick Wilder; luận án tiến sĩ của K.C.Claffy, Internet traffic characterization , University of California, San Diego, 1994; vv

Kết quả khảo sát của NCS về những nghiên cứu này cho thấy:

- Do đặc đ ểi m c a m ng Internet là m t hệủ ạ ộ th ng phân tán và hoố ạt động trên cơ chế phân lớp, nên c m từ “Lưu lượng Internet” được hiểu là tập hợp của rất ụnhi u ề định nghĩa, khái niệm và đối tượng khác nhau Do đó các nghiên cứu về lưu lượng Internet rất phong phú và thường được giới hạn trong một phạm vi mạng cụ thể, một lớp nhất định trên mô hình phân lớp TCP/IP hoặc một đối tượng lưu lượng cụ thể nào đó

- Các nghiên cứu trước đây, a phần tập trung nghiên cứu và đánh giá đặc tính lưu đlượng Internet ở mức gói (hay nói cách khác đối tượng nghiên cứu là các gói IP)

Trang 13

và kết quả đ ã xác nh n các đặc tính c m, tự đồng dạng và có sự tương quan ậ ụtrong thời gian dài của chúng

- Một số nghiên cứu, bao g m c lu n án TS c a K.C.Claffy, ã kh o sát các đặc ồ ả ậ ủ đ ảtính của lưu lượng Internet ở ứ m c luồng, trong đó họ định nghĩa luồng lưu lượng Internet hoặc là dựa trên c chếơ làm vi c c a giao th c TCP (dùng c SYN và ệ ủ ứ ờFIN/RESET để đánh dấu sự bắt đầu ho c k t thúc một luồng lưu lượng), hoặc ặ ếđịnh nghĩa lu ng l u lượng tương ứồ ư ng v i m t phiên làm vi c c a giao th c ứng ớ ộ ệ ủ ứdụng Cách định nghĩa luồng lưu lượng này chỉ hữu ích cho vi c ánh giá hi u ệ đ ệsuất hoạt động của các giao thức đầu cu i c ng nh giúp định c cho các h ố ũ ư ỡ ệthống đầu cuối của mạng Internet mà thường không giúp vi c ánh giá hi u su t ệ đ ệ ấhoạt động hoặc các vấn đề khác của bản thân mạng Internet (hay cụ thể hơn là các bộ định tuyến hoạt động l p IP) ở ớ

- Trong đồ án TS của K.C.Claffy, tác giả chủ ế y u nghiên cứu các đặc tính của các luồng lưu lượng Internet tổng hợp bao g m kích thước luồng và quá trình đến ồcủa luồng và đánh giá sự phụ thuộc của chúng vào giá trị time-out sử dụng trong quá trình định nghĩa luồng cũng như các tham số môi trường, mà chưa đưa ra kết luận là các đặc tính này tuân theo phân bố gì và cũng chưa nghiên cứu riêng

rẽ cho từng ứng dụng trong lưu lượng tổng hợp

Như vậy có th th y v n đề phân tích và đặc tính hoá các lu ng l u lượng ể ấ ấ ồ ưInternet ở lớp IP còn ph i được nghiên c u và kh o sát m t cách chi ti t, đặc bi t ả ứ ả ộ ế ệtheo hướng làm rõ các đặc tính c trưđặ ng theo ng d ng ho c nhóm ng d ng của ứ ụ ặ ứ ụchúng Đ ềi u này rất quan trọng trong việc tìm kiếm mô hình phân chia lưu lượng Internet một cách tự động và trong thời gian thực nhằm thay thế cho các mô hình phân chia lưu lượng dựa trên giá trị cổng ng d ng hi n ang g p nhi u v n đề về ứ ụ ệ đ ặ ề ấ

độ chính xác

Với hiện trạng như phần trên, mục tiêu nghiên cứu của luận án là sử dụng các

mô hình phân tích và dự đ oán nhằm tìm hiểu các biểu hiện hoạt động và biến thiên

của các luồng lưu lượng IP trên Internet và từ đó xây dựng mô hình cho phép tựđộng nhận dạng và phân chia l u lượng thành các nhóm ng d ng khác nhau, góp ư ứ ụphần giải quyết thách thức mà các nhà cung cấp d ch v truy nhậị ụ p (ISP/IXP) c ng ũnhư các nhà cung cấp n i dung (ICP) Internet hi n nay ang g p ph i Tr ng tâm ộ ệ đ ặ ả ọnghiên cứu là xác định tập các thuộc tính của luồng lưu lượng IP trên mạng đồng

Trang 14

thời nhận biết các dấu hiệu phân biệt chúng với nhau Vì thế đối tượng nghiên cứu của luận án là các luồng l u lượng IP trên Internetư

Có thể tóm tắt phạm vi nghiên cứu của luận án bao gồm việc nghiên c u giải ứquyết các vấn đề:

- Thu thập và xây dựng một cơ ở ữ s d liệu lưu lượng Internet đầ đủy và tin cậy

- Thực hiện các phân tích th ng kê và mô hình hoá các lu ng l u lượng ố ồ ư đo ởlớp IP nhằm tìm hiểu các biểu hiện hoạt động và biến thiên của chúng cũng như các đặc tính đặc trưng theo kiểu ứng dụng

- Xây dựng mô hình cho phép tự động nhận dạng với độ chính xác cao lưu

lượng của các nhóm ứng dụng đ ển hình trên Internet nhằm thay thế cho mô ihình phân chia theo giá trị ổ c ng ng dụng hiệ đứ n ang gặp nhiểu trở ngại do có chế cấp phát động cổng ứng dụng của mạng Internet

- Đánh giá hiệu suất và độ chính xác của mô hình tìm được trên dữ ệ li u th c ựnghiệm thu thập từ mạng

Tuy nhiên do thực tế Internet là mạng thông tin toàn c u có qui mô và s lượng ầ ố

ứng d ng vô cùng l n, đồng th i trạụ ớ ờ ng thái ho t động c a m ng c ng th hi n s ạ ủ ạ ũ ể ệ ựbiến thiên rất lớn trên nhiều mặt, như biến thiên về tả ưi l u lượng, bi n thiên theo ếkhu vực địa lý, biến thiên theo vùng mạng hay biến thiên theo kiể ứu ng dụng, vv

Do đó việc nghiên cứu biểu hiện hoạt động của các luồng lưu lượng IP trên toàn

mạng Internet là đ ều không thể thực hiệi n được H n n a do i u ki n khách quan ơ ữ đ ề ệnên dữ liệu lưu lượng đo của luận án, được thu thập tại mạng ISP/IXP của công ty Thông tin viễn thông đ ệi n lực, có thể không hoàn toàn mang tính đại diện cho lưu lượng của mạng Internet toàn cầu Vì thế các kết qu nghiên c u c a lu n án trước ả ứ ủ ậhết thể hiện các biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP trong

phạm vi một mạng ISP/IXP đ ểi n hình sau đó, hy vọng phần nào, thể hiệ đặc tính n của mạng Internet nói chung Đồng thời mô hình nh n d ng lu ng l u lượng IP do ậ ạ ồ ưluận án đề xuất phù hợp trước hết cho những ng dụng của các mạng ISP/IXP ứ

Phương pháp luận khoa học sử dụng trong lu n án này là s kếậ ự t h p gi a mô ợ ữhình phân tích và các phép đo thực nghiệm Phương pháp sử ụ d ng các mô hình phân tích có nhiề ư đ ểu u i m như khả ă n ng kiểm soát được hoạt động của mô hình và cung cấp các chi tiết v mốề i quan h gi a các tham s đầu vào v i k t qu đầu ra, tuy ệ ữ ố ớ ế ảnhiên nó cũng có nhược đ ểi m là thường phải sử dụng các “tóm tắt” c a h th ng ủ ệ ố ởmức cao nên đôi khi mô hình không phản ánh đúng bản chất thực tế của quá trình

Trang 15

lưu lượng Do đó cần thiết phải có sự kiểm tra hoạt động c a các mô hình phân tích ủtrên dữ liệ đu o thực nghiệm từ ạ m ng thực tế

Cụ thể lưu lượng thu th p t mạậ ừ ng Internet được x lý để t o các t p d li u ử ạ ệ ữ ệluồng Các tệp dữ liệu luồng này sau đó được phân tích bằng các mô hình và phương pháp thống kê để tìm hiểu biểu hiện hoạt động và biến thiên của chúng cũng như nguyên nhân gây ra các biểu hiện đó Hai phương pháp thống kê quan

trọng được sử dụng luận án này bao gồm: (i) phương pháp đánh giá hình dạng và

d ự đoán các thông số liên quan của phân bố dữ liệ u th c nghiệm, như các hàm ự

phân bố xác suất (pdf), phân bố xác suất luỹ tích (cdf), phân bố xác suất lu tích bù ỹ(ccdf), đồ thị Q-Q, biểu đồ, mô hình dự đ oán MLE, mô hình tổng hợp dữ liệu và (ii)

phương pháp đánh giá mức độ phù hợp giữa phân bố dữ ệ li u th c nghi m v i ự ệ ớ các phân bố lý thuyết (phương pháp thích hợp hoá các đường cong), như mô

hình tính toán các chỉ số th ng kê SSE (ố Sum of Square due to Error), R2, mô hình

Trang 16

kiểm tra KS (Kolmogorov-Smirnov) Chi tiết của hai phương pháp này sẽ được trình bày trong mục 3.2.1 của chương 3

Kết quả của quá trình phân tích và mô hình hoá luồng lưu lượng IP là tập các thuộc tính đặc trưng cùng với kiểu giá trị của chúng D a trên t p thu c tính này, ự ậ ộtiến hành xây dựng các tập dữ liệu mẫu và dữ liệu kiểm tra chứa các luồng lưu lượng (thể hiện dưới dạng bản ghi các thuộc tính của nó) đã được phân loại một cách thủ công Các thuật toán học tự động của trí tuệ nhân tạo sau đó được “luyện trên các tập d li u m u và ki m nghi m trên t p d li u ki m tra để tìm ra qui luật ữ ệ ẫ ể ệ ậ ữ ệ ểnhận dạng và phân loại luồng lượng IP Nói cách khác luận án không sử dụng m t ộthuật toán cố định cho trước để xây dựng các b phân loộ ại lưu lượng, thay vào đó các thuật toán h c tự động sẽ họọ c các qui lu t phân loại trực tiếp trên dữ liệu lưu ậlượng thể hiện dưới dạng tập các thuộc tính đặc trưng c a lu ng có s kếủ ồ ự t h p v i ợ ớcác mô hình lựa chọn thuộc tính đã được tác gi cảả i ti n cho phù h p v i bài toán ế ợ ớnhận dạng luồng lưu lượng Chi tiết về các thuật toán này cũng như những l nh vĩ ực liên quan của lý thuyết h c t động được trình bày chi ti t trong phần 4.3 của ọ ự ếchương 4 Có thể tóm tắt phương pháp nghiên cứu của luận án như lưu đồ ở trên

Luận án đã đề xuất và xây dựng thành công một mô hình mới cho phép nhận dạng các luồng lưu lượng của các nhóm ứng dụng trên mạng Internet bằng cách sử

dụng các thuật toán học tự động của trí tuệ nhân t o trên c sở tậạ ơ p các thu c tính ộđặc trưng của các lu ng l u lượồ ư ng IP Mô hình này đã cung c p m t ph ng thức ấ ộ ươ

mang tính hệ thống và khoa học cao cho phép giải quyết các vấn đề còn tồn tại

cũng như mớ ải n y sinh c a mạủ ng Internet hi n nay trong vi c cung c p và giám sát ệ ệ ấcác mức chất lượng c a m ng T kếủ ạ ừ t qu mô ph ng trên d li u l u lượng o th c ả ỏ ữ ệ ư đ ự

nghiệm cho thấy mô hình có tính ứng dụng thực tế rất cao, chỉ cần m t s hi u ộ ố ệchỉnh nhỏ là có thể áp dụng trên các b định tuy n ho t động trên m ng ộ ế ạ ạ

Luận án được tổ chức bao gồm phần mở đầu, 4 chương nội dung và kết luận như sau:

Chương 1 trình bày tổng quan tình hình nghiên cứu tại Việt Nam và trên thế

giới trong lĩnh vực kỹ thuật lưu lượng mạng Internet thông qua việc khảo sát các nghiên cứu liên quan đến vấn đề của luận án

Chương 2 khảo sát các phương pháp đo lường và thu thập thông tin về lưu

lượng mạng Internet hiện có và từ đó tìm một công cụ đo lường thích hợp để thu

Trang 17

thập dữ liệu lưu lượng mạng thực tế phục vụ cho các quá trình phân tích, mô hình hoá và mô phỏng tiếp theo Thực tế, NCS đã phát triển một phần mề đm o lường lưu lượng mạng riêng dựa trên thư viện các hàm bắt gói LIBPCAP cải tiến, và được đặt

tên là BKCAP Trong phần mềm này, NCS đã thực hiện m t s cảộ ố i ti n v vấn đề ế ềlấy mẫu và lọc gói nhằm giảm khối lượng dữ liệu đo và đồng thời đưa ra phương pháp tổ ch c dứ ữ liệ đu o b ng cằ ơ sở dữ ệ li u quan h (SQLite) nh m l u tr một ệ ằ ư ữlượng lớn dữ liệu đo cũng như tạo sự dễ dàng cho các phép phân tích th ng kê ốNgoài ra một cải tiến mới của BKCAP là nó có khả năng bắt và giải mã bất kỳ giao thức mạng và ng d ng m i nào b ng cách định ngh a khuôn d ng và các qui t c ứ ụ ớ ằ ĩ ạ ắphân tích tiêu đề dưới dạng các tệp xml

Chương 3 tập trung vào quá trình phân tích th ng kê các đặc tính và bi u hi n ố ể ệcủa luồng lưu lượng IP Được bắt đầu bằng việc khảo sát các khái niệm luồng lưu lượng Internet đang được sử dụng hi n nay và trình bày định ngh a lu ng s dụng ệ ĩ ồ ửtrong luận án Ph n ti p theo c a chương xác định các y u t và đặc tính c n phân ầ ế ủ ế ố ầtích của các luồng lưu lượng và bản thân các mô hình phân tích có thể Cu i cùng là ố

mô phỏng và đánh giá mô hình phân tích trên d li u lu ng t o ra t các gói l u ữ ệ ồ ạ ừ ưlượng thu thập được bằng phần mềm BKCAP và một số dữ ệ li u gói trên m ng ạInternet (để đả m bảo tính tổng quát) Hướng phân tích luồng ây được thực hiện ở đvới mục tiêu là nhằm phát hiện ra một số thuộc tính b t bi n c a chúng làm c sở ấ ế ủ ơcho thuật toán nhận dạng lưu lượng ứng dụng ở phần tiếp theo Một số tham số và phân bố quan trọng của các luồng lưu lượng Internet được khảo sát trong chương này, bao gồm: phân bố khoảng thời gian giữa các thờ đ ểi i m đến, phân bố kích thước, phân bố thời lượng và tỉ ệ ố l s lượng luồng giữa các ứng dụng, vv

Chương 4 dựa trên k t qu kh o sát và ánh giá các phương pháp phân lo i ế ả ả đ ạlưu lượng mạng Internet hiện có ở chương 1, đề xuất một mô hình mới cho phép

nhận dạng lưu lượng của các ứng dụng trên mạng Internet Phầ đầu của chương n trình bày tóm tắt cơ sở lý thuyết h c t động và ánh giá kh năọ ự đ ả ng áp d ng chúng ụvào quá trình nhận dạng lưu lượng Phần chính của chương tập trung phân tích và

mô phỏng thực nghiệm để xác định và tính toán kiểu giá trị ủ c a các thuộc tính quan trọng của các luồng l u lượng IP nh là các d u hi u cho phép phân bi t l u lượng ư ư ấ ệ ệ ưgiữa các nhóm ứng dụng khác nhau Phần quan trọng tiếp theo là thiết kế một mô hình và qui trình phân loại m i bớ ằng cách sử dụng k t h p t p thu c tính lu ng tìm ế ợ ậ ộ ồđược ở trên v i các thuậớ t toán h c t động c a trí tuệọ ự ủ nhân t o Cuối cùng là đánh ạgiá độ chính xác và tin cậy của mô hình phân loại cũng như hiệu suất hoạt động của chúng

Trang 18

Luận án kết thúc bằng các k ết luậ về n nh ng k t qu nghiên c u quan tr ng ữ ế ả ứ ọcũng như khả năng ng d ng c a chúng trong vi c gi i quyết các thách thứứ ụ ủ ệ ả c c a ủmạng Internet hiện nay và đề xuất các hướng nghiên cứu tiếp theo trong lĩnh vực phân tích và nhận d ng lạ ưu lượng ứng dụng Internet

Trang 19

Ch−¬ng 1 TỔNG QUAN VỀ PHÂN TÍCH VÀ NHẬN DẠNG

LUỒNG LƯU LƯỢNG INTERNET

Chương này sẽ trình bày về hiện trạng và các nhu cầu cần thiết phải thực hi n ệphân tích và nhận dạng các luồng l u lượng IP trên Internet, khảo sát các nghiên ưcứu liên quan trên thế giới và tại Việt Nam từ đ ó nhằm trả lời hai câu h i quan ỏtrọng là (i) tại sao cần phải ti n hành phân tích và nh n d ng các lu ng l u lượng ế ậ ạ ồ ư

IP trên Internet? và (ii) có thể tự động nh n d ng các lu ng l u lượng IP theo ki u ậ ạ ồ ư ểứng dụng c a chúng hay không? ủ

Internet

Trong lĩnh vực nghiên cứu mạng Internet hiện nay, có nhiều nghiên cứu nhằm đưa ra các cơ ch , thu t toán và kỹế ậ thu t m i cung c p ch t lượng d ch v (QoS) ậ ớ ấ ấ ị ụcho các ứng dụng Tuy nhiên một lĩnh vực rất quan trọng là phương pháp giám sát các mức chất lượng mà mạng cung cấp cho người dùng để có thể biết rõ ràng người dùng đang nhậ được mức chất lượng như thế nào lại chưa được nghiên cứu một n cách hệ thống và chi tiết Việc giám sát mức chất lượng m ng cung c p cho người ạ ấdùng chỉ có thể thực hiện được thông qua việc theo dõi các biểu hiện hoạt động và biến thiên của lưu lượng mạng

Ngoài ra sự phát triển quá nhanh của mạng Internet hiện nay cả về qui mô và

số lượng ứng d ng ã làm xuấụ đ t hi n nhi u v n đề mà trước ây khi thiếệ ề ấ đ t k mạng ếInternet người ta đã không gặp phải, như: khả năng cung c p ch t lượng d ch v ấ ấ ị ụ(QoS), khả năng phát hi n và ng n ch n các cu c t n công trên mạng, khả năng ệ ă ặ ộ ấnhận dạng và chống thư rác, khả năng i u khi n truy nh p m ng đối v i t ng ng đ ề ể ậ ạ ớ ừ ứdụng, mô hình hoá cơ chế chia sẻ tài nguyên giữa các ứng dụng trên mạng và dự

đoán xu hướng t ng trưởng l u lượng c a t ng ứng dụng hoặc loại ứng dụng Giải ă ư ủ ừquyết các vấn đề này là nhiệm vụ không đơn giản và đ ềi u kiện tiên quyết để có thể thực hiện được là phải tìm ra cơ chế hoặc mô hình cho phép tự động nhận dạng lưu lượng của từng loại ứng dụng trong các luồng lưu lượng tổng hợp vận chuyển trên Internet Hay nói cách khác cần có một giải pháp phân chia lưu lượng tổng hợp trên mạng thành các nhóm khác nhau Lưu lượng trong một nhóm là nh ng lư ượng có ữ u lbiểu hiện hoạt động và các thuộc tính thống kê tương tự nhau và do đó có đặc tính

sử dụng tài nguyên m ng g n gi ng nhau T ó có th cung c p nhi u m c ch t ạ ầ ố ừ đ ể ấ ề ứ ấlượng khác nhau bằng cách áp dụng mứ ưc u tiên xử lý phù hợp cho các nhóm lưu

Trang 20

lượng và đương nghiên công việc giám sát mức ch t lượng mà m ng cung c p cho ấ ạ ấngười dùng cũng dễ dàng hơn Đồng thời, việc nhận biết được đâu là các luồng lưu lượng bình thường và đâu là các luồng lưu lượng bất thường sẽ giúp phát hiện ra các cuộc tấn công trong mạng nếu có và đề xuất giải pháp ngăn chặn

Hay như trong một ví dụ khác v hi n tượng t c ngh n trong mạng Internet, ề ệ ắ ẽnguyên nhân gây ra hiện tượng tắc nghẽn có thể là từ một trong các ngu n như: các ồmáy chủ cung cấp nội dung trên mạng bị quá tải, các đường truy nhập có hệ số sử dụng băng thông quá cao, lỗi đường truyền hay lỗi định tuyến trong mạng đường trục, hay các ứng dụng tranh nhau chiếm dụng một tài nguyên tắc nghẽn nào đấy, vv Tuy nhiên việc xác định xem những lu ng l u lượng nào ang góp ph n gây ồ ư đ ầnên hiện tượng tắc nghẽ đn ó ch có th th c hi n được n u bi t được toàn b thông ỉ ể ự ệ ế ế ộtin định tuyến trên mạng là đ ềi u gần như không thể thực hiện được đối với Internet Hướng giải quyết khác có thể là s dụử ng các mô hình d oán th ng kê và k thu t ự đ ố ỹ ậ

học tự động để nhận dạng các hiện tượng và thông số quan trọng nào c a các luồng ủlưu lượng đang góp phần gây nên hiện tượng tắc nghẽn và với thông tin này các ISP

có thể thực hiện việ đ ềc i u chỉnh cân bằng tải để định hướng lại một s luố ồng l u ư

lượng đi các hướng khác nhằm giảm áp lực tắc nghẽn cho đ ểm đang xét i

Về phía người dùng, thông tin về đường đi của các luồng l u lượng c a các ư ủ

ứng d ng khác nhau s giúp cho vi c giám sát m c ch t lượng mà m ng cung c p ụ ẽ ệ ứ ấ ạ ấcho họ

Phương pháp nhận dạng lưu lượng ứng dụng trên mạng Internet phổ biến hiện nay thường được thực hiệ ởn mức gói, theo đó các bộ định tuyến trong mạng khi nhận được một gói lưu lượng sẽ tiến hành kiểm tra một số trường trong phần tiêu đề của gói (ví dụ, cổng ứng d ng) để đưa ra các quyết định gói đụ ó thu c nhóm lưu ộ

lượng nào và tiếp theo áp dụng mức xử lý chuyển tiếp gói tương ứng Nhược đ ểm icủa phương pháp phân loại này là tạo ra lượng tải xử lý rất lớn cho các b định ộtuyến, đặc biệt trong các mạng tốc độ cao, do phải kiểm tra từng gói lưu lượng với rất nhiều trường tiêu đề nên sẽ làm giảm hiệu suất và tốc độ chuyển tiếp gói Ngoài

ra, thường thì các bộ định tuyến dựa vào trường ToS (Type of Service) trong phần tiêu đề của gói IP để đưa ra quyết định phân loại, nhưng trong thực tế ạng Internet mhiện nay đa phần các bộ định tuyến không hỗ trợ trường ToS hoặc nếu có hỗ trợ thì cũng chỉ trên một vùng mạng hạn chế nên gây trở ngại cho thu t toán nhậ ận dạng lưu lượng của các ứng dụng

Tóm lại với tất cả các yêu cầ ứ u ng d ng và thách th ụ ức công nghệ như trên, mạng Internet hiện nay cần một nghiên cứu mới mang tính tổng thể và toàn

Trang 21

diện các biểu hiện hoạt động và biến thiên của các luồng IP nhằm tìm kiếm

m ột mô hình tự động nhận dạng chúng theo các nhóm ứng dụng Trên cơ sở đó giải quyết triệt để các vấn đề mớ i n y sinh c a Internet, bao g m: ả ủ ồ cung cấp chất lượng dịch vụ, phát hiện các cuộc tấn công, điều khiển truy nhập tài nguyên hay đánh giá hiệu suất hoạt động củ a mạng

1.2 Các nghiên cứu liên quan

Một trong những nghiên cứu đầu tiên về lưu lượng Internet mứở c lu ng là ồ

[33], trong nghiên cứu này các tác giả tập trung nghiên cứu cơ chế kết thúc c a các ủluồng lưu lượng IP bằng phương pháp thiết lập thời gian time-out thích ứng và từ đ ó

mô hình hoá các thông số thống kê tương ứng của các luồng l u lư ượng Bằng các phép phân tích thống kê trên các tệp dữ liệu lư ượng đ ớn các tác giả đu l o l ã chứng minh rằng việc thiết lập thời gian time-out của luồng một cách thích ứng với phân

bố và tốc độ đến của các gói trong khoảng thời gian đầu của luồng sẽ cho phép đánh giá hiệu suất hoạt động của mạng chính xác hơn so với trường hợp thi t lập thời ếgian time-out cố định và do đó việc mô hình hoá các đại lượng của luồng lưu lượng như kích thước và thời lượng luồng cũng phản ánh đúng bản chất thực tế củ ưa l u

lượng hơn Tuy nhiên trong nghiên cứu này, mặc dù có nhắc đến, nhưng các tác giả

đã ch a kh o sát chi ti t nh hưởng c a thời gian time-out đến quá trình đến (khởi ư ả ế ả ủtạo) của các luồng lượng IP

Kimberly C Claffy, Hans-Werner Braun, Kevin Thompson và G Miller

trong các nghiên cứu [9], [100] và [101] ã ti n hành kh o sát phân b kích thước đ ế ả ốluồng lưu lượng Internet, kết quả cho thấy phần lớn các luồng lư ượng Internet có u lkích thước rất bé và phần lớn số lượng gói và byte được vận chuy n trong m t s ít ể ộ ốluồng lưu lượng có kích thước lớn Đặc i m này t n t i trên nhi u m c t ng h p đ ể ồ ạ ề ứ ổ ợlưu lượng khác nhau và được các tác giả gọi là hi n tượng “voi và chuột”, trong đó ệhình tượng con voi được ví cho những luồng l u lư ượng kích thước lớn ít ỏi và chuột được ví với các luồng l u lượng kích thước bé nh ng l i có s lượng rấ ớư ư ạ ố t l n Th c ự

tế có nhiều phương pháp nhận dạng các luồng lưu lượng “voi”, nhưng một định nghĩa hay được sử dụng đó là các luồng lưu lượng có tốc độ (kích thước/thời lượng) lớn hơn 1% hệ số sử dụng liên kết

Trên một hướng nghiên cứu khác liên quan đến việc khảo sát thời lượng của

các luồng lưu lượng Internet, Nevil Brownlee và KC Claffy trong nghiên cứu [102]

đã c gắố ng phân chia các lu ng l u lượng theo th i lượng c a chúng, kết quả cho ồ ư ờ ủthấy 45% số lượng luồng có thời lượng bé hơn 2 giây và được ví với hình tượng con

Trang 22

chuồn chuồn và ít hơn 2% số lượng luồng kéo dài quá 15 phút nh ng l i mang h n ư ạ ơ50% tổng số byte lư ượng trên liên kết và được ví với hình tượng con rùa u l

Sarvotham và các cộng sự trong nghiên cứu [103] ã kh o sát tính c m c a đ ả ụ ủlưu lượng trong các luồng lưu lượng Internet, kết quả phát hi n ra có m t s ít các ệ ộ ốkết nối chứa lượng lưu lượng rất lớn và họ gọi đó là các luồng lưu lượng Alpha hay nói cách khác luồng lưu lượng Alpha là các luồng có t c độ đỉnh vượt quá m t m c ố ộ ứngưỡng cho trước Cụ thể hơn h nh n d ng các k t nốọ ậ ạ ế i truy n liên t c m t số ề ụ ộlượng lớn byte trong những khoảng thời gian 500ms là luồng lưu lượng Alpha, các luồng còn lại được gọi là luồng lưu lượng Beta Kết quả cũng cho th y các gói ấtruyền trong các lu ng l u lượng này c ng có đặc tính c m gi ng nh khi xét l u ồ ư ũ ụ ố ư ưlượng Internet ở mức gói

Zhang và các cộng sự trong nghiên cứu [75] khi kh o sát các luồả ng l u ưlượng có độ dài trên 30 giây đã phát hiện ra r ng có s tương quan lớằ ự n gi a kích ữthước và tốc độ (kích thước/thời lượng) c a lu ng và h gi i thích ngu n g c c a s ủ ồ ọ ả ồ ố ủ ựtương quan này là do hành vi của người dùng hay nói cách khác người dùng thường

có xu hướng truy n lề ượng thông tin lớn khi có nhiều băng thông Các nghiên cứu sau này cũng cho thấy đối với các luồng lưu lượng kích thước bé cũng t n t i s ồ ạ ựtương quan giữa kích thước và tốc độ lu ng nh ng nguyên nhân thì là do các c ch ồ ư ơ ếhoạt động và đ ềi u khiển của giao thức mạng

Phương pháp phân loại lưu lượng Internet phổ biến nhất hiện nay đang

được áp dụng là s dụử ng s hi u c ng ng d ng TCP ho c UDP trong ph n tiêu đề ố ệ ổ ứ ụ ặ ầcủa gói IP Theo IANA [60] thì mỗi ứng dụng trên mạng Internet được gắn m t s ộ ốcổng ứng dụng thuộc 1 trong 3 khoảng giá trị là (i) các cổng ng dụng phổ biến (0-ứ1023), (ii) các cổng ứng dụng đ đăng ký (1024-49151) và các cổã ng ng dụng dùng ứriêng (49152-65535) Tuy nhiên phương pháp này hiện nay gặp rất nhi u hề ạn chế

do không phải tất cả các ứng d ng trên mụ ạng đều tuân thủ số cổng ng d ng được ứ ụcấp phát ví dụ các hacker có thể sử dụng các c ng tiêu chu n để gán cho các ng ổ ẩ ứdụng tấn công của họ nhằm vượt qua hệ thống tường lửa Hơn nữa hiện nay rất nhiều ứng dụng mới ra đời sử dụng nh ng c ng ng d ng hoàn toàn m i k t h p ữ ổ ứ ụ ớ ế ợvới cơ chế cấp phát động c ng ng d ng làm cho k t qu phân lo i không chính ổ ứ ụ ế ả ạxác

Trong các nghiên cứu [44] và [45] Dunigan cùng với các cộng sự đ ã trình bày một phương pháp cho phép đặc tính hoá các luồng lưu l ng dượ ựa trên phép phân tích thống kê đa biến thiên (multi-variate) Theo đó từng gói trong luồng lưu

lượng sẽ được phân loạ ựi d a trên 3 tham số: kích thước gói, trễ so với gói trước nó

Trang 23

(I.A.T) và hướng truyền của gói Hai tham số đầu được ánh giá thông qua phân bố đrời rạc tương ứng của chúng, còn tham số thứ 3 được đánh giá dựa trên hướng truyền c a gói và gói li n trước (t ng c ng có 4 giá tr có th ) Quá trình phân lo i ủ ề ổ ộ ị ể ạnày đưa ra một tập hữu hạn kết quả (10 loại đối với kích thước gói x 10 loại đối v i ớgiá trị I.A.T x 4 loại đối với hướng truyền = 400 loại) và họ xem giá tr của mỗi loại ị

là 1 biến ngẫu nhiên thể hiện tỉ lệ ph n tr m gói c a m t lu ng nào đó là thuộc một ầ ă ủ ộ ồloại cụ thể Tuy nhiên thay vì nghiên cứu từng ng dụng mạng riêng biệt, họ ếứ ti n hành phân loại luồng một cách hệ th ng h n b ng phương pháp th ng kê PCA ố ơ ằ ố(Principle Component Analysis), theo đó họ áp dụng phép phân tích PCA để tìm ra

3 biến ngẫu nhiên thể hiện sự khác nhau rõ nét nhất giữa các loại luồng lưu lượng Sau đấy mỗi luồng l u lượng có th được mô t ch bằư ể ả ỉ ng 3 thu c tính tương ng ộ ứ

của nó, từ đó họ định nghĩa một khái niệm gọi là hồ sơ ồ lu ng l u lượng: là hàm 3 ưchiều của 3 biến ngẫu nhiên dự đ oán từ mộ ốt s lu ng cùng loại Vì thếồ để bi t 1 ếluồng bất kỳ chưa được phân lo i thuộc về 1 lạ ớp nào đó, người ta tiến hành tính toán 3 thành phần (thuộc tính) quan trọng trên (gọi là PCA) của luồng, và luồng sẽ thuộc lớp nào mà giá trị PCA vừa tính có xác suất giống với hồ ơ s 1 luồng thuộc lớp

đó nh t Tuy nhiên các nhà nghiên c u ã ch ra r ng độ chính xác c a phương pháp ấ ứ đ ỉ ằ ủphân loại này không cao khi so sánh các tập dữ liệu đo khác nhau, nghĩa là tính toán

hồ sơ lu ng l u lượng trên m t t p d li u và sau ó áp d ng (so sánh) v i các ồ ư ộ ậ ữ ệ đ ụ ớluồng của một tập d li u o khác ữ ệ đ

Trong một nghiên cứu khác về việc phát hiện các tấn công l trong m ng, ạ ạ

Lee và Stolfo trong nghiên cứu [24] đã có một khảo sát tính toán tương đối đầy đủ

trên cơ sở dữ ệ li u m ng DARPA [46], theo ó họ đạ đ ã tìm ra được 41 thuộc tính có thể sử ụ d ng để mô tả 1 luồng lưu lượng của một ứng dụng đ ểi n hình cụ thể Để tìm

ra 41 thuộc tính này từ chín thuộc tính cơ bản trong [47], người ta áp d ng các ụphương pháp xử lý dữ liệu quan hệ để tìm các mối liên h gi a các b n ghi lu ng ệ ữ ả ồ

lưu lượng nhằm xác định các đ ển hình và từ đó tìm ra 41 thuộc tính luồng Bốn mốt ithuộc tính này lại được chia thành ba loại khác nhau: 9 trong số đ ó là các thuộc tính

cơ bản c a các k t n i TCP/IP (b ng 4-1), 13 là các thu c tính liên quan đến nội ủ ế ố ả ộdung và cuối cùng 19 là các thuộc tính thống kê của các kết nối trong quá khứ

Paxson và Zhang đã có một nghiên c u r t quan tr ng, trong đó họ đứ ấ ọ ã phát triển một thu t toán đa mục đích để nhận dạng các phiên làm việc tương tác liên ậquan đến hành vi người dùng bằng cách kiểm tra kích thước gói, nhãn thời gian và hướng truyền của gói, theo mộ ột b tiêu chu n cho trước ẩ

Bảng 1-1 Chín thuộc tính cơ ả b n của kế ốt n i mạng theo Lee và Stolfo

Trang 24

Thuộc tính Mô tả Kiểu giá trị

dịch vụ dịch vụ mạng phía đích (HTTP, Telnet, vv ) rời rạc

số byte nguồn số lượng byte dữ liệu trao đổi giữa nguồn và đích liên tục

số byte đích số lượng byte dữ liệu trao đổi giữa đích và nguồn liên tục

c ờ trạng thái của kết nối (hoạ động bình thường hoặc t

lỗi)

rời rạc land 1 - kết nối từ ớ/t i cùng một host/cổng;

đánh giá t n su t xu t hi n kho ng th i gian giữa các gói (I.A.T) bé nằm trong ầ ấ ấ ệ ả ờkhoảng (10-2000)ms, (ii) dấu hiệ đu ánh giá t lệ các gói có kích thước bé và (iii) ỉ

dấu hiệu định lượng các gói nhỏ được nhóm lại với nhau Do đó có thể nói Paxson

và Zhang đã phát triển một phương pháp nh n d ng các lu ng l u lượậ ạ ồ ư ng t ng tác, ươ

bằng cách xây dựng và đánh giá 3 thuộc tính luồng lấy giá trị liên tục từ 0-1, giá trịcàng gần 1 càng chứng tỏ luồng lưu lượng có tính tương tác cao và một luồng lưu

lượng sẽ được phân loại là lu ng tương tác n u giá tr củồ ế ị a c 3 tham s trên nằm ả ốtrên một mức ngưỡng cho tr c ướ

Bảng 1-2 Các thuộ c tính lu ng tương tác theo Paxson và Zhang

trị

γ Dấu hiệu về tần suất xuất hiện của các gói nhỏ liên tiếp Liên tục

α Tỉ lệ th i gian gi a các th i i m đến (I.A.T) c a các gói ờ ữ ờ đ ể ủ

kích thước bé (<= 20 bytes) nằm trong khoảng (10-2000)ms

Liên tục

Ngoài ra Paxson và Zhang cũng ã phát triển một số các thuật toán đặc biệt đ

để nhận d ng các giao thứạ c tương tác c thểụ , nh : SSH, RLOGIN, TELNET, FTP, ưNAPSTER (nhạc trực tuyến), vv Tuy nhiên đa phần các thuật toán này đều yêu cầu phải truy nhập vào nội dung của gói tin, trừ thuật toán nhận d ng SSH thì ngoài ạ

3 dấu hiệu trên còn thêm một thuộc tính khác là kích thước gói

Hernandez-Campo và các cộng sự trong khi nghiên cứu các luồng lưu

lượng TCP [48] đã cố gắng xác định tập các thông số thống kê của các kết nối TCP

Trang 25

để cho phép nhóm các kế ố ạt n i l i thành nh ng nhóm liên k t th ng kê H cũữ ế ố ọ ng ã đnghiên cứu theo hướng tìm hiểu các biểu hiện của lưu lượng mà không cần sử dụng

số cổng ứng dụng cũng như không cần phải phân tích nội dung các gói tin, thay vào

đó h cố gắọ ng phân lo i l u lượng d a trên đặc tính sử dụng tài nguyên mạng với ạ ư ựmục đích là tạo ra các nhóm lưu lượng tương đương, ví dụ nhóm l u lượng truy n ư ềfile, nhóm lưu lượng thời gian thực hay nhóm lưu lượng tương tác Ý nghĩa khoa học lớn nhất trong hướng nghiên cứu của họ là không sử dụng đơn v dữ ệị li u là gói

mà thay vào đó họ định nghĩa một đơn vị dữ ệ li u g i là ADU (đơn v dữ ệ ứọ ị li u ng dụng), một ADU có thể chứa vài gói dữ liệu Cụ ể họ sử dụ th ng s thay đổi s th ự ố ứ

tự khung phát và khung phúc đáp của giao thức TCP để xác định các biên của 1 ADU Sau đó thay vì mô hình hoá kiểu trao đổi các gói trong kết nối TCP họ mô hình hoá sự trao đổi các ADU Mỗi k t nế ối TCP khi đó được mô tả ằ b ng một véc tơ

n chiều (c1, c2, , cn), trong đó n là số ADU c a k t n i, và g i là các epoch Mỗi ủ ế ố ọepoch ci = (ai, bi, ti), trong đó a i là số lượng byte truyền b i bên kh i t o k t n i, bở ở ạ ế ố i

là số lượng byte truyền theo h ng ngược lại, và tướ i là kho ng thả ời gian rỗi giữa ADU đó và ADU tiếp theo

Bảng 1-3 Các thuộc tính sử dụng để phân chia lưu lượng theo Hernandez-Campos

amax, bmax, tmax Số byte và s lớn nhất của mỗi epoch Liên t c ụ

aµ, bµ, aδ, bδ Số lượng byte trung bình và độ lệch tiêu chu n ẩ

của mỗi epoch

Liên tục

a1q, b1q đại lượng thống kê th nh t (first quantile) ứ ấ Liên tục

a2q, b2q đại lượng thống kê th hai (second quantile) ứ Liên tục

a3q, b3q đại lượng thống kê th ba (third quantile) ứ Liên t c ụ

ρ1(a1, n, b1 n) Tương quan Spearman Liên tục

ρ2(b1, n-1, a1 n) Tương quan Spearman bước 1 Liên tục Cuối cùng họ xác định được 26 thuộc tính tổng c ng sộ ử dụng cho quá trình

phân loại lưu lượng, như trong bảng 4-3

Andrew W.Moore và Dennis Zuev trong nghiên cứu [49] đã áp dụng m t ộtrong các phương pháp học tự động đơn giản nhất dựa trên công thức xác suất có

đ ềi u ki n Bayes để phân loại lưu lượng Internet thành các nhóm khác nhau như: ệnhóm lưu lượng cụm, nhóm lưu lượng cơ sở dữ ệ li u, nhóm l u lượư ng t ng tác, ươ

Trang 26

nhóm lưu lượng www, vv Với đầu vào là t p các thuộc tính của luồậ ng l u lượng ưTCP (tập các gói lưu lượng giữa 2 cờ SYN/RESET và FIN), h áp d ng công th c ọ ụ ứBayes như sau:

( ) ( | )( | )

( ) ( | )j

đ ềi u ki n này có u i m là đơn gi n d th c hi n, tuy nhiên nhược i m l n nh t ệ ư đ ể ả ễ ự ệ đ ể ớ ấcủa nó là độ chính xác phân loại không cao

Qua khảo sát các nghiên cứu liên quan ở trên có thể thấy, trong lĩnh vực nghiên cứu đặc tính hoá lưu lượng Internet, đa phần các nghiên cứu chỉ mới kh o sát đặc ảtính lưu lượng ở mức gói nh phân b kích thước gói, phân b th i i m đến c a ư ố ố ờ đ ể ủcác gói và đặc tính cụm của chúng Một số nghiên cứu ban đầu về đặc tính lưu lượng ở mức lu ng thì a ph n ch khảồ đ ầ ỉ o sát các lu ng l u lượng c a các phiên làm ồ ư ủviệc (mứ ức ng d ng) trên Internet và t p trung ánh giá v hai thông s là kích ụ ậ đ ề ốthước và thời lượng lu ng Trong khi ó m t ph n quan tr ng nh hưởng l n đến ồ đ ộ ầ ọ ả ớ

hiệu suất hoạt động của mạng là đặc tính và biểu hiện biến thiên của các luồng lưu lượng IP, đặc biệt là phân bố khoả ng th i gian gi a các th i i m đến ờ ữ ờ đ ể (I.A.T) của chúng, lại chưa có một nghiên cứu và khảo sát chi tiết nào được th c ựhiện

Về mô hình nhận dạng và phân loại lưu lượng Internet thì các phương pháp hiện có hoặc sử dụng s hi u c ng ng d ng trong ph n tiêu đề củố ệ ổ ứ ụ ầ a gói l u lượng ưhoặc sử dụng các đặc thù của giao thứ ức ng dụng hoặc tiên tiến hơn là sử dụng m t ộ

s ố đặc tính thống kê đơn giản của luồng lưu l ng và phiên làm viượ ệc trên Internet

Với sự phát triển của mạng Internet như hiện nay thì các phương pháp này bộc lộhai nhược đ ểi m lớn là độ chính xác thấp do cơ chế cấp phát c ng ng d ng động ổ ứ ụ

và hiệu suất hoạt động của mô hình nhận dạng không cao do chúng tiêu thụ

nhiều tài nguyên của nút mạng và th i gian nh n d ng lâu vì th không th áp d ng ờ ậ ạ ế ể ụcho các ứng dụng thời gian thực

Qua nghiên cứu của mình NCS nhận thấy một hướng khả quan là sử dụng k t ếquả phân tích biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP trên Internet để xác định các thuộc tính đặc trưng của chúng theo từng loại ứng dụng và

Trang 27

sử dụng các thuộc tính đặc trưng này làm dấu hiệu nhận biết lưu lượng của một loại

- Và từ đ ó tính toán tập thuộc tính đặc trưng của chúng Các thuộc tính này được phân tích và tính toán theo hướng nhận biết các dấu hiệu đặc trưng lưu lượng của các nhóm ứng dụng trên mạng Internet Trên cơ ở s các dấu hiệu này t động ựhoá quá trình nhận dạng và phân loại (luồng) lưu lượng Internet bằng cách áp dụng các kỹ thu t hậ ọc tự động của trí tuệ nhân tạo

Tuy nhiên để có thể áp d ng các mô hình phân tích thống kê và thuật toán nhận ụ

dạng tự động vào việc giải quyết các vấn đề nêu trên thì việc đầu tiên cần phải thực hiện là thu thập dữ liệu lưu lượng thực tế Để đảm bảo các kết quả phân tích cũng như nhận dạng ứng dụng đạt độ chính xác cao và mang tính tổng quát thì dữ liệu lưu lượng sử dụng trong phép phân tích ph i đủ lớả n, trên hai khía c nh là (i) ch a ạ ứlưu lượng của phần lớn các ứng dụng trên mạng Internet và (ii) phải là lưu lượng có tính đại diện cao cho mạng Internet và được thu thập trên một kho ng th i gian ả ờ

tương đối dài Để làm được đ ều này, với đặc đ ểm về sự đa dạng của các ứng dụng i i

cũng như qui mô rất lớn của mạng Internet, yêu cầu phải có các phương pháp và

kỹ thuật đặc biệt như: kỹ thuật nén dữ liệu đo, tổ chức lưu trữ mộ t lượng l n ớ

dữ liệu lưu lượng và phương pháp xử lý chúng Đây thật sự là một thách thứ ấc r t

lớn của các hệ thống đo lường và giám sát mạng Internet hiện nay và do đó giải quyết chúng cũng là một trong các mục tiêu nghiên cứu của luận án này

Trang 28

Ch−¬ng 2 ĐO LƯỜNG VÀ LẤY MẪU LƯU LƯỢNG

INTERNET

2.1 Giới thiệu chung

Có rất nhiều lý do phải thực hiện thu thập lưu lượng Internet và đ ường các o lthông số liên quan của nó, tuy nhiên có thể tóm tắt 3 mục tiêu chính là (i) để phục

vụ việc nghiên cứu đặc tính và sự biến thiên của lưu lượng, (ii) giám sát hiệu suất hoạt động và chất lượng dịch vụ của m ng và (iii) i u khi n truy nh p tài nguyên ạ đ ề ể ậ

và cung cấp chất lượng dịch vụ (QoS) mạng Hai mục tiêu sau liên quan chặt chẽ với nhau và chỉ khác nhau trên phương diện thang thời gian của phép đo Bảng 2-1

dưới đây trình bày các phép đo đ ển hình trong mạng Internet và ứng dụng tương i

Tỉ lệ mất gói Khả năng kết nối Hiệu suất kết nối Giám sát định tuyến Phân bố kích thước gói, luồng, phiên làm việc

Phân bố thờ đ ểi i m đến của các gói, luồng lưu lượng

Qui hoạch dung lượng Tối ưu hoá mạng Khai thác mạng Cung cấp chất lượng dịch vụ Cung cấp các dịch vụ giá trị gia tăng

D ự đoán xu hướng phát triển của lưu lượng

Đ ềi u khi n truy nh p mạng ể ậ Tính cước

Thời gian đáp ứng

Tỉ lệ mất gói Khả năng kết nối

Tốc độ kết nố i Chất lượng dịch vụ Hiệu suất ứng dụng

Giám sát hiệu suất

Kế hoạch nâng cấp (ứng dụng) Thoả thuận mức dịch vụ Thiết lập mức chất lượng Tối ưu hoá việc phân phát nội dung Lập kế hoạch sử dụng

lưu lượng và phiên làm việ c Phân IAT gói, luồng và phiên làm việc

Cải thiện thiết kế và cấu hình thiết bị

Cho phép giải quyết sự ố c thiết

bị thời gian thực

Trang 29

Một cách tóm tắt, có thể phân loại các thông số cầ đn o c a m ng Internet thành ủ ạ

4 nhóm như sau:

(i) Các thông số đ o lường hệ ố s sử ụ d ng mạng, bao g m: s lượng gói, s lượng ồ ố ốbyte, lưu lượng đỉnh, phân bố ư l u lượng giữa các ứng dụng và giao thức (ii) Các thông số đ o lường hiệu suất, như: RTT (trên các lớp khác nhau), tỉ lệ huỷ gói, hay tỉ lệ gói va chạm trong các mạng cấu hình bus

(iii) Các thông số ề v độ s n sàng, bao gồm độ sẵẵ n sàng đường i, độ s n sàng c a đ ẵ ủliên kết và độ sẵn sàng củ ứa ng dụng

(iv) Và cuối cùng là các thông số đ o lường độ ổn nh, bao gồm: tốc độ thay đổi địtrạng thái đường truyền, bảng định tuyến, vv

Để thực hiệ đn o các thông số này người ta đã đưa ra nhiều phương pháp và kỹ thuật đo khác nhau, nhưng nhìn chung có thể chia thành hai phương pháp chính là:

lưu lượng thăm dò và từ đó tính được trễ truyền đến nút đích tương ứng, RTT hoặc

tỉ lệ mất gói Phương pháp này có u i m là d th c hi n tuy nhiên l i có nhược ư đ ể ễ ự ệ ạ

đ ểi m là t o ra lượng t i không c n thi t (l u lượng th m dò) trên m ng và các ph n ạ ả ầ ế ư ă ạ ầ

tử mạng và ôi khi cho k t qu không chính xác ho c th m chí là không th ti n đ ế ả ặ ậ ể ếhành được do các phần tử mạng có th không h trợ lưể ỗ u lượng th m dò ho c có th ă ặ ểhuỷ lưu lượng thăm dò khi tình trạng tải của nó cao, vv

Đ o lường th động không gử ư ụ i l u lượng th m dò vào m ng mà ti n hành b t ă ạ ế ắlưu lượng thực của mạng tại các nút hay liên kết trên mạng để phân tích tìm ra các thông số cầ đn o nh tốư c độ phát gói c a các ng d ng ho c nút m ng, đặc tính và ủ ứ ụ ặ ạphân bố lưu lượng trên m ng theo th i gian hay không gian, vv u i m c a ạ ờ Ư đ ể ủphương pháp đo này là không tạo ra lưu lượng vô ích trên mạng, tuy nhiên nhược

đ ểi m là yêu c u h thốầ ệ ng o lường ph i có kh năđ ả ả ng l u tr và x lý mộư ữ ử t lượng l n ớ

dữ liệu và với tốc độ cao Hơn nữa nhiều khi do chính sách bảo mật mà các nhà khai thác mạng không cho phép thực hiện các phép đo thụ động này

Qua đó có thể thấ đy o lường ch động thường được s dụủ ử ng cho các m c ụ

đích c n xác định các thông s hi u su t c a m ng nh trễầ ố ệ ấ ủ ạ ư truy n gói, RTT (trễ ềtruyền hai chi u), t l mấề ỉ ệ t gói, vv còn o lường th động l i phù h p h n cho các đ ụ ạ ợ ơmục đích giám sát mạng trong ó người ta quan tâm đến việc quan sát các biểu hiện đ

Trang 30

và trạng thái biến thiên c a tả ưủ i l u lượng trên m ng c ng nh đảm b o r ng m ng ạ ũ ư ả ằ ạ

đang cung c p các mứấ c ch t lượng và hi u su t định trước ấ ệ ấ

Mục tiêu đặt ra của luận án này là tìm hiểu các biểu hiện biến thiên của lưu lượng ứng dụng trên mạng Internet ở mức lu ng và t ó xây d ng các mô hình ồ ừ đ ựphân tích và phân loại lưu lượng thành các nhóm ứng dụng có đặc tính lưu lượng tương tự nhau, do đó phương pháp đo lường sử dụng ây là đở đ o lường th động ụ

nhằm thu thập các gói lưu lượng vận chuyển qua đ ểi m quan sát và các thông số liên quan của chúng

Vì thế phần tiếp theo của chương này sẽ trình bày các chi tiết kỹ thuậ đt o

lường thụ động cũng như những vấn đề liên quan của nó Tuy nhiên trong báo cáo chuyên đề lần th 2 trong khuôn kh lu n án NCS ã khảứ ổ ậ đ o sát m t cách chi tiết và ộ

đầ đủy về các phương pháp, k thuậỹ t và công c o lường ch động lưu lượng ụ đ ủInternet [1]

2.2 Đo lường thụ động

Như đ ã nói ở trên kỹ thuậ đt o lường th động th c hi n b t các gói l u lượng ụ ự ệ ắ ư

ứng d ng truy n trên m ng Internet qua i m o và l u tr lạụ ề ạ đ ể đ ư ữ i dưới m t định d ng ộ ạnào đó (thường dưới dạng nh phân) Đặc i m c a o lường th động là nó không ị đ ể ủ đ ụlàm ảnh hưởng đến hoạt động của mạng do không yêu cầu phát lưu lượng th m dò, ătuy nhiên khó khăn là lượng dữ liệ đu o là rất lớn Ví dụ, một k t nế ối 155Mbps với

hệ số sử dụng trung bình ~80Mbps và gi thi t kích thước gói trung bình là 750 ả ếbyte, khi đó sẽ có khoảng 13000 gói/s hay nói cách khác thời gian đo kéo dài 1s sẽ tạo lượng dữ liệu là ~10MB Với dung lượng của các đĩa cứng hiệu suất cao hiện nay, ví dụ 40 GB, sẽ chỉ có thể lưu được d li u đo trong 1 giờ Giải pháp khắc ữ ệphục đơn giản nhất là chỉ lưu ph n tiêu đề IP và tiêu đề giao th c v n chuy n ầ ứ ậ ể(khoảng 40 byte/gói), lượng dữ liệu đo khi đó chỉ còn ~0,5 MB/s và vì thế cũng v i ớđĩa cứng trên s có th l u trữ ữ ệở ẽ ể ư d li u đo trong 18 gi ờ

Ngoài ra thì dữ liệ đu o thường có rất nhiều thông tin trùng lặp và không phải tất cả thông tin bắt được đều cần thi t, do ó khi chu n b phép o cần xác định ế đ ẩ ị đtrước những thông tin nào cần thu thập và thực hiện các biện pháp lọc và nén dữ liệu để loại bỏ các thông tin không cần thiết Nếu so sánh với việc đo lường trong các mạng chuyển mạch kênh truyền thống sẽ thấy có sự khác nhau rõ ràng ở đ ây: để

lưu trữ các thông tin quan trọng của 1 cuộc đ ện thoại chỉ cầi n không gian l u tr ư ữ

200 byte là đủ, tương ứng với độ dài cuộc thoại 25ms với tốc độ 64 kbps Nếu cuộc gọi có độ dài 3 phút (cuộc gọi đ ểi n hình) thì bản tin lưu trữ chỉ bằng 0,01% lu ng ồ

Trang 31

lưu lượng dữ liệu Trong các mạng d li u thì phần thông tin tiêu đề của gói dữ liệu ữ ệchỉ bằng 5% kích thước gói (40/750), do ó vi c ch ghi l i ph n tiêu đề của gói là đ ệ ỉ ạ ầmột trong các phương pháp nén dữ liệu đo hiệu quả

Thực tế hiện nay có khá nhiều công cụ cho phép thu thập gói lưu lượng Internet được phát triển với các mục đích khác nhau nh phân tích và hi u ch nh các ư ệ ỉgiao thức mạng, phục vụ quá trình tính cước/thống kê, hay ph c t p h n là nh m ứ ạ ơ ằphát hiện và ng n chặn các vụ ấă t n công mạng Các công cụ này ho c được thực hiện ặbằng phần mềm, phần cứng hoặc kết hợp cả hai Ví dụ, có th sử dụng các thiếể t b ị

kiểm tra đường truyền hay thiết bị phân tích giao thức để đo lường lỗi đường truyền cũng như lỗi gói trong thời gian thực, hoặc sử dụng các công c ph n m m nh ụ ầ ề ưTCPDUMP để quan sát các gói IP trên mạng LAN

Theo khảo sát của NCS cũng như đ ánh giá của các dự án nghiên cứu khác,

đ ểi m chung c a các công c sẵủ ụ n có là ph n l n trong s chúng là các ph n m m mã ầ ớ ố ầ ềnguồn mở với độ n định r t kém, không có nhi u l a ch n đối v i thu t toán bắt ổ ấ ề ự ọ ớ ậgói, không có hoặc chỉ có thuật toán lấy mẫu đơn giản, không có khả năng b t m t ắ ộlượng gói lớn và trên các liên kết mạng tốc độ cao, không có khả năng phân tích thống kê lưu lượng bắt được, vv Những công cụ tốt và hi u su t cao thì l i a ệ ấ ạ đphần là các sản phẩm thương m i hoá nh NetFlow c a hãng Cisco, thi t b ạ ư ủ ế ịEndance của công ty Endance, vv Phụ lục B c a lu n án trình bày tóm t t m t s ủ ậ ắ ộ ốcông cụ bắt gói và phân tích l u lượng Internet quan tr ng hi n có và các đặc đ ểư ọ ệ i m

ứng d ng chính của chúng ụ

Nói cách khác, theo khảo sát của NCS, các công cụ mã nguồn mở hiện không

đáp ng được các yêu cầứ u đặt ra trong vi c thu th p l u lượng gói m ng Internet ệ ậ ư ạ

của luận án này, xét trên các mặt về độ ổn nh, số lượng gói bắt được, khả năng địgiải mã nhiều giao thức mạng, khả năng t ch c l u lượng o dưới d ng c sở dữ ổ ứ ư đ ạ ơliệu quan hệ hay khả năng phân tích th ng kê Để giải quyếố t thách th c này NCS đã ứphát triển một phần mềm bắt gói và phân tích lưu lượng Internet d a trên chuẩn thư ự

viện bắt gói LIBPCAP, gọi là BKCAP Cùng với các kết quả khác, thì đây cũng là

một trong những đóng góp (mặc dù chỉ là các cải tiến mang tính thực hiện nhiều hơn là tính hàn lâm) của tác giả trong lĩnh vực đo lường lưu lượng Internet

Nhưng trước hết phần tiếp theo sẽ giới thiệu tóm tắt khảo sát của nghiên cứu sinh về các phương pháp và mô hình đo lường thụ động ang được nghiên cứu và đ

sử dụng hiện nay cũng như các thách thức và tồn tại của chúng

Trang 32

2.2.1 Khảo sát các phương pháp và ứng dụ ng o lường thụ động đ

Phần này trình bày m t cách tóm tắt các kỹ thuậ độ t o lường th động quan ụtrọng liên quan trực ti p đến vi c gi i quyếế ệ ả t các v n đề củấ a lu n án Chi ti t v các ậ ế ềkhía cạnh khác của kỹ thuật đo lường mạng Internet có thể tham khảo thêm tại [1], [20], [69-74], [76-93]

2.2.1.1 Tiến trình bắt giữ gói l u lượng ư

Trong kỹ thuậ đt o lường thụ động thì tiến trình quan trọng nhất là bắt giữ các gói lưu lượng truyền trong mạng và phương pháp bắt giữ gói nhìn chung phụ thuộc vào công nghệ mạng s dụử ng Trong các m ng dùng chung nh Ethernet (IEEE ạ ư802.3) có thể thực hiện việc này tương đối dễ dàng bằng cách thiết lập cấu hình card giao tiếp mạng (NIC) để nó hoạt động chế độ “ở promiscuous” cho phép chuyể ấn t t

cả các gói nhìn thấy trong mạng cho hệ đ ều hành xử lý (ở chế độ bình thường NIC i

chỉ chuyển những gói nào có đ ại chỉ MAC đích trùng với địa chỉ MAC của nó hoặc các gói phát quảng bá cho hệ đ ề i u hành) Trong trường hợp công nghệ mạng s ửdụng là các giao thức đ ểi m-đến- i m như ATM, Ethernet tốc độ cao hay các đường đ ểnối trực tiếp, thì phương pháp bắ ữ ệt d li u phong phú h n M t trong các cách ó là ơ ộ đthiết lập cấu hình thiết bị mạng (các b chuy n m ch l p 2) để chúng chuy n ti p ộ ể ạ ớ ể ếcác gói nhìn thấ ởy một c ng đến c ng n i v i thi t bị đổ ổ ố ớ ế o để ghi l i, tuy nhiên ạphương pháp này sẽ tạo ra m t lượng Jitter nh t định cho các gói đo Cách khác là ộ ấ

“quan sát” thụ động, ví dụ dữ ệ li u truy n trên các liên k t cáp quang có th được ề ế ểnhân đôi bằng các bộ chia tách quang mà thực chất là chuyển hướng một phần công suất tín hiệu ánh sáng sang một sợi quang khác dẫn đến thiết bị đ o Vì thiết bị chia tách quang này hoàn toàn hoạt động chế độ thụ động nên phép đo sẽ không làm ở

ảnh hưởng gì đến ho t động bình thường c a m ng n u nh năng lượng quang sau ạ ủ ạ ế ưkhi chia tách còn đủ lớn Phương pháp này c ng có th được áp d ng cho các liên ũ ể ụ

kết truyền dữ liệu dưới dạng tín hiệu đ ện, tuy nhiên với những liên kết tốc độ cao ithì nó có thể gây nh hưởng đến ho t động c a m ng vì thi t b o có th làm thay ả ạ ủ ạ ế ị đ ểđổi đặc tính đ ệi n của liên k t do không ph i h p tr kháng ế ố ợ ở

Một phương pháp bắt dữ liệu khác là sử dụng các thi t b o ki u “xuyên qua” ế ị đ ểtrong đó liên kế ẽt s được k t n i vớế ố i thi t b o, thi t b trong khi b t gói c ng đồng ế ị đ ế ị ắ ũthời nhân đôi gói ra liên kết đầu ra một cách nguyên vẹn Tuy nhiên trong trường

hợp nếu thiết bị đo không hoạt động tốt có thể làm méo d ng tín hi u l u lượng ạ ệ ưtruyền trên m ng D li u b t ây có thể là toàn bộ lưạ ữ ệ ắ ở đ u lượng truy n qua ho c ề ặtheo hình thức lấy mẫu [3], biện pháp lấy mẫu thường hay được sử dụng trong các

Trang 33

phép đo vì nhiều lý do, như: nó kinh tế hơn, đáp ứng về thời gian tố ơt h n, gi m kích ả

thước tập dữ liệu đo, hay chỉ đơn thu n là do không có khả năng truy xuấ đến toàn ầ t

bộ lưu lượng mạng, vv Tuy nhiên lấy mẫu cũng gây ra vấn đề về độ chính xác của

dữ liệu đo Theo [3], một kỹ thuật lấy mẫu lý tưởng phải có các đặc đ ểm sau: i

- Việc lựa chọn các khung l u lượng để b t gi ph i đảm b o tính ng u nhiên, ư ắ ữ ả ả ẫkhông thiên vị hay bỏ qua bất kỳ loại lưu lượng nào

- Việc chọn các khung lưu lượng phải trên cơ ở s càng nhiều càng tốt mà không làm ảnh hưởng đến các nhiệm vụ quan trọng khác

- Tạo ra một lượng tải xử lý tối thiểu đối với thi t b o ế ị đ

Thực tế cho th y l y m u là m t trong nh ng bước quan tr ng c a quá trình o ấ ấ ẫ ộ ữ ọ ủ đ

lường thụ động nên luận án sẽ dành phần 2.3 trong chương này để trình bày thêm về các kỹ thuật lấy m u lẫ ưu lượng Internet

2.2.1.2 Tiến trình phân tích thô dữ liệu gói bắt được

Các phép phân tích ban đầu đối với dữ liệ đu o thường được thực hiện nhằm xác định các thuộc tính thống kê cơ bản c a l u lượng, nh : phân b số lượng ủ ư ư ốgói/luồng trong khoảng thời gian cho trước hay phân bố kích thước gói/lu ng, vv ồ

và các thông số liên quan của phân bố như giá trị trung bình, giá trị trung tâm, độ lệch tiêu chuẩn, vv Mặc dù hình dạng của phân bố giả định c a các tham số mạng ủcần quan tâm trong phép đo chưa biết, nhưng bằng Định lý giới hạn trung tâm (Central Limit Theorem), hoàn toàn có thể nhận dạng được một số dịch chuyển

đáng k củể a phân b Và cho dù hình d ng phân b củố ạ ố a các tham s thế nào thì giá ốtrị kỳ vọng của các mẫu lưu lượng đo thực cũng sẽ tiếp c n kậ ỳ ọ v ng của phân bố và

độ lệch tiêu chu n c a chúng c ng s ti p c n độ lệẩ ủ ũ ẽ ế ậ ch tiêu chu n c a phân b gi ẩ ủ ố ảđịnh chia cho căn bậc hai của kích thước mẫu Các thông s th ng kê đó có thể dễ ố ốdàng tính được dựa trên 3 giá trị của phép o là đ số lượng mẫu, t ng giá tr và tổng ổ ịbình phương của các mẫu

Tuy nhiên do lưu lượng mạng th ng thay ườ đổi theo định kỳ, nên trị số “tiêu chuẩn” của các thông số lưu lượng c ng s thay đổi theo, có th kh c ph c hi n ũ ẽ ể ắ ụ ệtượng này bằng cách sử dụng các c a s quan sát Các tác giảử ổ trong [3] đề xu t s ấ ửdụng “cửa sổ thời gian cố định lấy mẫu ngẫu nhiên” vì nó không yêu cầ ưu l u tr t t ữ ấ

cả các gói trong khoảng thời gian của cửa sổ

Các mức lưu lượng trong mạng chuyển mạch gói như Internet thường được

đo trên các thang thời gian tương đối dài (15-30 phút) so với kích thước cụm lưu lượng, nếu thang thời gian ngắn hơn thì lượng dữ ệ đ li u o s r t l n và đôi khi phần ẽ ấ ớ

Trang 34

mềm hoặc thiết bị đo không đáp ứng được Các tác giả trong nghiên cứu [2] đã trình bày một số mô t th ng kê c a l u lượng o, nh : PMR (tỉ lệả ố ủ ư đ ư giá tr đỉnh/tr trung ị ị

bình), CSQ (bình phương hệ số bi n thiên), Dế c (lượng tương quan), IDC (chỉ số phân tán của các bộ đếm các thông số liên quan đến lưu lượng đo), P (mức độ đỉnh)

và tham số H (Hurst) Ba thông số đầu tiên (PMR, CSQ, Dc) được xem là các tham

s ố đo lường thực tế và người ta cũng đã nghiên cứu thêm về chúng với các dữ liệu

đo được t mạừ ng Ethernet (6 t p d li u, v i 100000 gói/t p) và m ng báo hi u ệ ữ ệ ớ ệ ạ ệISDN (với 5 dòng dữ liệu), kết quả cho thấy rằng nếu chọn được thang thời gian thích hợp thì thông s PMR có th cung c p thông tin v s thi u h t b ng thông ố ể ấ ề ự ế ụ ăCác tác giả trong [3] đã ti n hành nghiên c u đặc tính t tương quan củế ứ ự a tr ễxếp hàng trên các dữ liệu đo của mạng Ethernet và mạng ISDN, kết quả cho thấy

mô hình GI/G/1 là phù hợp nhất cho việc mô tả dữ ệ đ li u o Các tác gi cũả ng ti n ếhành so sánh trễ trung bình trong các trường hợp hệ ố ử ụ s s d ng khác nhau, khi hệ ố s

sử dụng >0,5 thì hai đường cong GI/G/1 và dữ liệu đo biế đổi khác nhau Khi xáo n trộn một cách ngẫu nhiên tập d li u o nh m tri t tiêu s tương quan nhưữ ệ đ ằ ệ ự ng v n ẫduy trì phân bố biên (marginal) thì kết quả cho thấy đường cong phân bố ữ d liệ đu o phù hợp vời đường cong GI/G/1 Tiếp theo đó các tác giả lại chia d liệ đữ u o thành các khối có kích thước cố định t 10-100 gói/khối nhằm duy trì được các cụm lưu ừlượng cục bộ, với kích thước khối là 15 gói các tác giả tiến hành xáo trộn các khối nhưng giữ nguyên thứ tự các gói trong từng khối, kết quả cho th y tr xếp hàng thay ấ ễđổi so với d li u o g c Tuy nhiên n u xáo tr n c c b các kh i (nghĩữ ệ đ ố ế ộ ụ ộ ố a là gi ữnguyên thứ ự t các khối nhưng thay đổi th t các gói trong t ng kh i) thì d li u o ứ ự ừ ố ữ ệ đcho thấy sự tương quan thời gian dài và phù h p v i d li u o g c trên khía cạnh ợ ớ ữ ệ đ ốtrễ xếp hàng, do ó mô hình FBM (đ Fractional Brownian Motion) là phù hợp với dữ liệu đo trừ trường hợp thang thời gian ~10ms thì hiện tượng phụ thuộc thời gian ngắn là phổ biến Đồng thời do sự giới hạn về độ dài của dữ liệu đo nên phân bố chiều dài hàng đợi của dữ liệu o đ đối với các giá trị lớn suy gi m nhanh h n so v i ả ơ ớ

mô hình

Tóm lại các kết quả nghiên cứu trên cho thấy nếu mụ đc ích nghiên cứu là phân tích và đánh giá các biểu hiện hoạt động và hiệu suất của mạng thì việc đo lường và phân tích dữ liệu đo tại các thang thời gian th p là không c n thi t Các ấ ầ ếthang thời gian thấp (xấp xĩ giá trị RTT) chỉ phù hợp cho vi c phân tích và d oán ệ ự đtham số H là tham số phản ánh m c độ co c m c a l u lượng ho c hi n tượng phân ứ ụ ủ ư ặ ệ

bố vệt dài của các thông số ư l u lượng tương ứng

Trang 35

Nghiên cứu [5] lại đề xuất phương pháp phân tích lưu lượng đo trong miền

tần số, theo đó có thể chia lưu lượng thành 3 loại khác nhau, bao gồm: (i) loại tần số

thấp (| |ωω ≤ω≤ωL), (ii) loại tần s cao (| |ố ωω ≥ω≥ωH ) và (iii) loại t n s trung bình ầ ố(ωωL≤≤≤ ≤| |ωω ≤ω≤ωH) Kết quả nghiên cứu cho thấy tốc độ đỉnh của lưu lượng tần số thấp sẽ xác định băng thông của liên kết trong khi việc nhớ đệm sẽ có ảnh hưởng nhiều đến

lưu lượng tần số cao, do đó việc lựa chọn đúng các tần số ωωL và ωωH sẽ giúp ích nhiều cho công việc đo lường và phân tích lưu lượng mạng thức tế

2.2.1.3 Đo lường mạng đường trục

Các tác giả trong [6] đã tiến hành o l u lượng c a k t n i gi a các m ng đ ư ủ ế ố ữ ạLAN với nhau s dụử ng công ngh mạng WAN DQDB (ệ Distributed Queuing Dual Bus) trong thời gian 4 giờ (từ 11:00 – 15:00) của ngày làm việc Kết quả đ o một lần

nữa xác nhận các kết luận của nghiên cứu trước đây trong [7] về tính tự đồng dạng

và có sự tương quan trong thời gian dài c a l u lượng Ngoài ra các tác gi còn ti n ủ ư ả ếhành tính chỉ ố s phân tán IDC của dữ liệ đu o (ph n lớn là TCP/IP), kết quả cho thấy ầtiến trình 2s-MMPP (two-stage Markov Modulated Poisson Process) là thích hợp cho việc phân tích dữ ệ đ ở li u o thang th i gian ng n còn mô hình FGN (ờ ắ Fractional Gaussian Noise) là phù hợp cho quá trình phân tích ở các thang thời gian dài h n ơMột dự án nghiên cứu khác đó là [8] đã tiến hành thu thập lưu lượng mạng đường trục NSFNET c a M và ánh giá t ng l u lượng o được, xu hướng bi n ủ ỹ đ ổ ư đ ếđổi của nó cũng như phân bố lưu lượng theo t ng giao th c K t qu cho thấừ ứ ế ả y s ựbiến thiên hàng ngày của kích thước gói sẽ tương ng với hệ ố ửứ s s dụng khi các ng ứdụng truyền lưu lượng theo dạng từng khối một (như FTP) và ho t động vào các gi ạ ờkhông bận Tuy nhiên họ cũng không th y có s xu t hi n c a m t qui lu t bi n ấ ự ấ ệ ủ ộ ậ ếthiên nhất định i với thông số kích thước gói lưu lượng trên các thang thời gian đốdài Ngoài ra kết qu phân tích c ng cho th y ch mộ ốả ũ ấ ỉ t s ít h th ng trong m ng (31 ệ ố ạtrên tổng số 4254 mạng, hay 0.7%) óng góp 1/2 tổđ ng l u lượng và 118 h th ng ư ệ ố(2,8%) nhận khoảng 50% lưu lượng, và 46,9% lưu lượng được trao đổi giữa 1500 cặp hệ thống (0,28% trên tổng số 560048 cặp có thể)

Các tác giả trong [9] đã nghiên cứu về cơ ch thi t l p th i gian time-out trong ế ế ậ ờviệc định nghĩa luồng lưu lượng Internet Theo truyền thống người ta hay định nghĩa luồng lưu lượng TCP là tập các gói lưu lượng truyền giữa hai gói SYN (thiết lập kết nối TCP) và gói FIN (kết thúc kết nối TCP), tuy nhiên định nghĩa này không khả thi trong trường hợ đp o lường các mạng lõi, vì những lý do sau:

- Thiết bị đ o có thể huỷ đi một số gói nhất định

Trang 36

- Một trong các trạm đầu cu i (c a k t nốố ủ ế i TCP) có th gặể p s c (h th ng bị ự ố ệ ốkhởi tạo lại hoặc kết nối mạng của nó bị đứt) nên nó sẽ không bao giờ gửi đi gói FIN

- Đường đi của kết nối (TCP) có thể bị thay đổi do ó ph n còn l i c a lu ng đ ầ ạ ủ ồ

sẽ không còn nhìn thấy tại đ ểm đo nữa i

- Hơn nữa cơ chế SYN/FIN chỉ có thể áp dụng với các luồng lưu lượng TCP, còn đối với lưu lượng UDP thì không thể biết được đ ểi m bắ đầu và kết thúc t của một luồng lưu lượng

Ngoài ra một định nghĩa luồng lưu lượng Internet cũng được sử dụng khá ph ổ

bi n ế đó là một dòng các gói truyền theo cả hai chiều [10] với một số tham số chung xác định trước, ví dụ cùng chung địa chỉ IP nguồn/đích và số hiệu cổng ứng dụng chẳng hạn Tuy nhiên, trong nghiên cứu trên dữ liệu đo có thời lượng 1 giờ của mạng đường trục NSFNET và một số mạng ô th khác, ngoài các tham s chung đ ị ốtrên các tác giả còn đưa vào thông số khác là thời gian time-out, là khoảng thời gian lớn nhất giữa 2 gói liên tiếp được xem là trong cùng một luồng Trong nghiên cứu này các tác giả đ ã thử các giá trị time-out từ 2s - 2048s K t qu cho th y m t s ế ả ấ ộ ốgiao thứ ức ng dụng như DNS và FTP không bị ảnh hưởng bởi việc lựa chọn giá trị time-out, trong khi những ng dứ ụng khác như Telnet lại bị ả nh hưởng rất lớn Vấn

đề định nghĩa lu ng lưồ u lượng s được phân tích chi tiếẽ t trong chương 3 c a lu n ủ ậ

án

Một nghiên cứu khác về ư l u lượng m ng đường tr c ó là [11], các tác giả đ đạ ụ đ ã o

lường lưu lượng mạng vBNS/Mỹ với thi t b o OC3MON và ti n hành phân tích ế ị đ ếphân bố kích thước gói, đặc tính luồng lưu lượng cũng như phân bố ư l u lượng theo từng giao thức Tuy nhiên do hạn chế của thi t bị đế o OC3MON nên các lu ng l u ồ ưlượng trong phép đo này thường bị kết thúc một cách cưỡng ép sau các khoảng thời gian 1 giờ, do đó làm ảnh hưởng đến các số liệu thống kê của các luồng lưu lượng dài như trong các ứng dụng multicast

2.2.1.4 Đo lường mạng nội bộ

Cũng đã có rất nhiều nghiên cứu thực hiện việc đo lường lưu lượng và các thuộc tính của chúng trong các mạng nội bộ (LAN) Một số nghiên cứ đ ểu i n hình,

như trong nghiên cứu [12] người ta đã thực hiệ đo lường tải lưu lượng tổng hợp n của các phiên làm việc trong 1 mạng nội bộ bao gồm các phiên đăng nhập mạng (nội bộ và từ xa) hay các phiên truy nh p ổ ứậ c ng m ng (n i b và t xa) T k t qu ạ ộ ộ ừ ừ ế ả

đo lường các tác gi ã ghi l i th i gian áp ứng, khả thông và hệ số sử ụả đ ạ ờ đ d ng các tài

Trang 37

nguyên dùng chung, theo đ đó ã phát hiện ra các đ ểi m thắt cổ chai và đề xuất các biện pháp cải thiện hiệu suất hoạt động của mạng Một nghiên cứu khác là [13] đã

tiến hành thu thập lưu lượng mạng LAN trong vòng 5h bằng công cụ Tcpdump và

tiến hành phân tích dữ liệu đo để đặc tính hoá các ứng dụng khác nhau, kết quả phân tích bao gồm tốc độ (lưu lượng) trung bình trong từng phút, tỉ ệ l phần trăm lưu lượng của từng giao thức ứng dụng và phân bố kích thước gói trên mạng

Cuối cùng nghiên cứu [14] đã tiến hành đo l ng mườ ạng Ethernet đường trục

tại ĐH Florida/Mỹ, kết quả đo lường cho thấy tải lưu lượng mạng (hay hệ số sử dụng mạng) là khoảng 3,7%; 4,3%; và 6,9% trên các khoảng thời gian tương ứng: giờ bận, 30 phút và 10 phút Ngoài ra các tác gi c ng ã phân lo i l u lượng trong ả ũ đ ạ ưtừng giờ thành 5 loại khác nhau tuỳ theo độ lớn của lưu lượng và cuối cùng phân bố kích th c gói ướ được phát hiện là không đổi trong những khoảng thời gian 24h với kích thước trung bình là 138,6 byte

2.2.1.5 Đo lường mạng quay số (Dial-up và ADSL)

Trong [15] người ta đã trình bày nghiên cứ đu o lường các cuộc gọi số liệu theo

kiểu quay số trong vòng 30 ngày với tổng số cuộc gọi là 500 000 Trong phép đo này người ta tiến hành ghi lại những tham số sau của từng cuộc gọi:

• Thời đ ểi m bắ đầu cuộc gọi t

• Thời gian duy trì cuộc gọi

• Tổng số byte và gói thông tin truyền từ 1 người dùng đến mạng

• Và tổng số byte và gói thông tin truyền từ ạ m ng đến 1 người dùng

Tuỳ theo kích thước trung bình của các gói truyền từ mạng đến người dùng, các tác giả đ ã phân loại các cuộc gọi thành 2 loại A và B Quan sát cho thấy thời gian duy trì cuộc gọi của các cuộc gọi thuộc loại A là kho ng 300s còn c a lo i B ả ủ ạkhoảng 1700s, ngoài ra kết quả cũng cho th y t c độ bit t người dùng đến m ng ấ ố ừ ạcủa các cuộc gọi loại A cũng cao hơ Đ ền i u này dẫn đến suy luận là các cuộc gọi loại A là của các ứng d ng gụ ửi và nhận thư đ ệ i n tử còn các cuộc gọi loại B là c a ủ

ứng d ng duy t Web hay nh ng công vi c tương t Nghiên c u quá trình đến c a ụ ệ ữ ệ ự ứ ủcác cuộc gọi cho thấy khoảng thời gian giữa thờ đ ểi i m đến (i.a.t) của các cuộc gọi

có thể được mô hình hoá bằng phân bố hàm siêu mũ (Hyper-Exponential) hay là tổng của một khoảng các phân bố hàm mũ

Trang 38

2.2.2 Các phương pháp nén dữ liệ đ u o

Dữ liệu trong các phép đo lưu lượng thụ động thường rất lớn do đó cần thiết phải thực hiện một số biện pháp nhằm giảm kích thước hay nói cách khác là nén dữ liệu này lại để có thể lưu tr , v n chuy n và phân tích được d dàng h n M t s ữ ậ ể ễ ơ ộ ốphương pháp quan trọng đang được sử dụng hi n nay bao g m: s dụệ ồ ử ng các b n ảtóm tắt gói, sử ụ d ng khái ni m lu ng l u lượng, và cu i cùng là biện pháp lấy mẫu ệ ồ ư ố

S ử dụng dấu hiệu gói lưu lượng

Một trong những cách có thể sử dụng để gi m lượng d li u o là s dụng ả ữ ệ đ ử

“dấu hiệu” gói và luồng, phương pháp này có thể áp dụng cho các phép đo trong đó mục đích không phải là nội dung của các gói mà là xác định biểu hi n cệ ủa các gói lưu lượng khi di chuyển qua các thành phần mạng khác nhau, ví dụ như các phép đo trễ hay tỉ lệ mất gói, s đồ định tuy n hay xác định các t n công từơ ế ấ ch i d ch vụ ố ị(DDoS)

Ý tưởng của phương pháp này là sử ụ d ng một số thu t toán để tính toán 1 mô ậ

tả tóm tắt (gọi là digest) nội dung của một gói lưu lượng, thuật toán đơn giản nhất

đó là c ng t t c các byte c a gói d li u l i v i nhau, tuy nhiên k t quảộ ấ ả ủ ữ ệ ạ ớ ế là t l xung ỉ ệ

đột tương i cao Bằng cách sử dụđố ng các thu t toán tạậ o b n tóm t t tinh vi h n, ví ả ắ ơ

dụ sử dụng các c ch tạơ ế o m t mã nh MD5 [16] và SHA [17] có th gi m t lệ va ậ ư ể ả ỉchạm cho dù chỉ sử dụng một phần các giá trị Hash C n l u ý là khi tính các “mô ầ ư

tả tóm tắ ” của các gói cần pht ải bỏ qua những trường trong phần tiêu đề của gói IP như DS, TTL và Checksum vì chúng có thể thay đổi trên đường đi của gói

Phương pháp này cũng có thể áp dụng cho trường hợp các trang tài liệu web

vì nếu một trang web được truyền nhiều lần trên cùng một liên kết người ta thường

sử dụng cơ chế nhớ tạm thời (caching) để giảm lượng thông tin tải trên mạng

Sử dụng khái niệm luồng lưu lượng

Thực tế mỗi k t n i trên mạng Internet chứa nhiều gói IP và các gói liên tiếp ế ốnhau thường có phần tiêu đề tương tự nhau, ví d trong m t phiên làm vi c UDP ụ ộ ệhoặc TCP bình thường, các gói chỉ có mộ ốt s ít trường khác nhau, là:

- Chỉ số nh n d ng kh i d li u IP, được s dụậ ạ ố ữ ệ ử ng trong trường h p c n ph i ợ ầ ảphân đ ạo n khối dữ liệu TCP, tuy nhiên trong các phiên bản TCP mới nhất người ta tránh tối đa vi c phân ệ đ ạo n dữ liệu TCP bằng các bản tin khám phá PMTU

- Trường checksum của gói IP

- Số thứ ự t khung dữ liệu TCP

- Số thứ ự t khung phúc đáp (ACK )của TCP

Trang 39

- UDP hoặc TCP Checksum

Trường chỉ số nh n d ng kh i d li u IP c n thi t trong mộ ốậ ạ ố ữ ệ ầ ế t s trường h p, ví ợ

d ụ để xác định các khối dữ ệ li u IP trùng l p, tuy nhiên đối v i bài toán mô hình hoá ắ ớnguồn hoặc luồng dữ liệu thì nó là không cần thi t Về chỉ sốế này c ng đồng nghiên ộcứu mạng Internet cũng đã thảo luận rất nhiều về sự cần thi t c a nó và đế ủ a s th ng ố ốnhất với nhau là có thể bỏ trường này vì các phiên b n TCP m i hi n nay và giao ả ớ ệthức IPv6 không cho phép phân đ ạo n dữ liệu TCP Các trường checksum được tính

từ dữ ệ li u, đối v i trường Checksum của gói IP thì hoàn toàn có thể ểớ ki m tra được

do nó chỉ tính trong phần tiêu đề của gói, nhưng phần checksum của TCP hoặc UDP thì cần ph i b t c kh i d li u Đối v i trường TTL, nó s thay đổi nếu như đường ả ắ ả ố ữ ệ ớ ẽ

đ ủi c a các kh i dữ ệố li u thay đổi, nên n u m c ích phép o là theo dõi các thay đổi ế ụ đ đtrong bảng định tuyến của mạng thì cần phải ghi lại giá trị TTL

Cuối cùng các trường số th tựứ gói TCP truy n và ACK c a các gói liên ti p ề ủ ếnhau của cùng một luồng dữ ệ li u th c t gầự ế n b ng nhau, n u không có s thay đổi ằ ế ựthứ tự hay m t các kh i d li u truy n thì chúng khác nhau 1 lượng úng b ng kích ấ ố ữ ệ ề đ ằthước phần tải tin của mỗi gói

Tóm lại bằng cách kết hợp tất cả các ph ng pháp loươ ại bỏ các trường không cần thiết hoàn toàn có thể nén phần tiêu đề của các gói d li u l u lượng v i t lệ 10:3 ữ ệ ư ớ ỉhoặc thậm chí t t h n nh trong [18] và [19] ố ơ ư

Cuối cùng phương pháp hay được áp dụng nhất hiện nay để nén dữ liệu đo là phương pháp lấy mẫu lưu lượng Phương pháp này được trình bày chi tiế ởt phần 2.3

2.2.3 Vấn đề đồng bộ thời gian

Trong nh ng phép ữ đo bao gồm nhiề đ ểu i m đo và kết quả đ o có chứa các nhãn thời gian thì có mộ ất v n đề n y sinh là c n ph i đồng b th i gian giữa các đ ể đả ầ ả ộ ờ i m o Một trong các phương pháp giải quyết thách thức này là sử dụng giao th c phân ứphối thời gian qua mạng NTP (Network Time Protocol) để đồng bộ nguồn đồng hồcủa các nút đo với một đồng hồ chuẩn, tuy nhiên phương pháp này có một số nhược

đ ểi m sau:

- NTP tập trung vào độ chính xác trên thang thời gian dài nên v i các thang thời ớgian đo ngắn nó không chính xác và đồng thời còn có một lượng dịch chuyển nhất định

Trang 40

- Thông tin thời gian của NTP cũng phải được truy n qua m ng trong quá trình ề ạđồng bộ hoá nên c ng chịũ u m t lượng bi n thiên tr (Jitter) nh t định, ngh a là ộ ế ễ ấ ĩbản thân nó cũng không phải là hoàn toàn chính xác

- Hai hệ thống máy tính sử dụng giao th c NTP ch có th đồng b hoá ngu n ứ ỉ ể ộ ồđồng hồ của chúng đến xấp xỉ 10ms, nên những phép đo yêu cầu độ phân giải thời gian cao hơn thì không thể áp d ng NTP ụ

Ngoài ra, nguồn đồng hồ th i gian th c trong các máy tính thường không được ờ ựchính xác lắm, thường có sai số vài giây trong một ngày, ví dụ: với sai số của ngu n ồđồng hồ là 5s một ngày thì trong 10 phút s có sai sốẽ là 35ms, x p x vớấ ĩ i tr truy n ễ ềgói trên mạng, do đó nếu chúng ta ti n hành đo trễ truyền một chiều thì có thể ấế th y

là kết quả đ o sẽ bị sai nghiêm tr ng sau m t kho ng th i gian o ng n và k t qu ọ ộ ả ờ đ ắ ế ảcuối cùng là không đồng nhất với nhau

Vì thế đối với nh ng phép o yêu c u độ chính xác cao v th i gian, người ta ữ đ ầ ề ờthường cung cấp thông tin đồng hồ ngoài băng sử dụng sóng vô tuy n trong ó ế đphương pháp hữu ích nhất là sử dụng ngu n thông tin định th i c a h th ng GPS ồ ờ ủ ệ ố

Hệ thống định vị toàn cầu GPS hiện nay cung cấp dịch vụ cho người dùng ở khắp mọi nơi và có thể cung cấp nguồn đồng h vớồ i độ phân gi i lên đến 350ns và độ ảchính xác 95% [20]

Tuy nhiên trong luận án này, bản chất phép đo là thụ động b t các gói truy n ắ ềtrên mạng nên vấn đề này không nh hưởng gì đến kết qủ đả a o cũng như đến quá trình phân tích dữ liệ đu o nên nghiên cứu sinh không đi sâu xây dựng giải pháp đồng bộ ờ th i gian cho các phép đo

2.3 Kỹ thuật lấy mẫu lưu lượng mạng Internet

Việc lấy mẫu lưu lượng Internet là nhằm giảm lượng dữ liệu đo và/hoặc để có thể đ o được các liên kết tốc độ cao mà tốc độ của thi t b o không áp ng được ế ị đ đ ứ

Lấy mẫu có thể được thực hiện trong quá trình bắt giữ gói hoặc sau khi đã có dữliệu đo tuỳ vào bản chất của bài toán và hạ ầ t ng mạng

Hiện nay có m t s phương pháp và k thu t lấộ ố ỹ ậ y m u l u lượng khác nhau có ẫ ưthể áp dụng tu theo yêu c u x lý và độ chính xác c a phép phân tích và nhìn ỳ ầ ử ủchung có thể chia chúng thành hai loại chính bao gồm (i) lấy mẫu theo thời gian và (ii) lấy mẫu theo sự kiệ n

• Lấy mẫu theo thời gian là một trong những k thu t xửỹ ậ lý tín hi u truy n th ng ệ ề ố

và trong lĩnh vự đc o lường lư ượng khái niệm này được hiểu như sau: giả thiết u l

dữ liệu lưu lượng đo được là D bao gồm 3 thông số quan trọng là: thời đ ểm đến i

Ngày đăng: 12/03/2022, 05:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] A. Erramilli and J.L. Wang (1994), “Monitoring packet traffic levels”, IEEE Global Telecommunications Conference, GLOBECOM’94 Communications: The Global Bridge, volume 1, pages 274–280 Sách, tạp chí
Tiêu đề: Monitoring packet traffic levels
Tác giả: A. Erramilli and J.L. Wang
Năm: 1994
[3] A. Erramilli, O. Narayan, and W. Willinger (1996), “Experimental queueing analysis with long-range dependent packet traffic”, IEEE/ACM Transactions on Networking , 4(2):209–223 Sách, tạp chí
Tiêu đề: Experimental queueing analysis with long-range dependent packet traffic
Tác giả: A. Erramilli, O. Narayan, and W. Willinger
Năm: 1996
[4] P.D. Amer and L.N.Cassel (1989), “Management of sampled real-time network measurements”, P roceedings 14 th Conference on Local Computer Networks, pages 62–68 Sách, tạp chí
Tiêu đề: Management of sampled real-time network measurements
Tác giả: P.D. Amer and L.N.Cassel
Năm: 1989
[5] Yonghwan Kim and San Qi Li (1996), “Timescale of interest in traffic measurement for link bandwidth and allocation design”, Proceedings IEEE INFOCOM ’96, Fifteenth Annual Joint Conference of the IEEE Sách, tạp chí
Tiêu đề: Timescale of interest in traffic measurement for link bandwidth and allocation design
Tác giả: Yonghwan Kim and San Qi Li
Năm: 1996
[6] M. Cinotti, E.D. Mese, S. Giordano, and F. Russo (1994), “Long-range dependence in ethernet traffic offered to interconnected DQDB MANs”, Singapore ICCS ’94, Conference Proceedings , volume 2, pages 479–484 Sách, tạp chí
Tiêu đề: Long-range dependence in ethernet traffic offered to interconnected DQDB MANs
Tác giả: M. Cinotti, E.D. Mese, S. Giordano, and F. Russo
Năm: 1994
[7] Will E. Leland, Murad S Taqqu, Walter Willinger, and Dalinel V Wilson (1994), “On the self-similar nature of ethernet traffic”, IEEE/ACM Transactions on Networking , 2(1) Sách, tạp chí
Tiêu đề: On the self-similar nature of ethernet traffic
Tác giả: Will E. Leland, Murad S Taqqu, Walter Willinger, and Dalinel V Wilson
Năm: 1994
[8] K. C. Claffy, G. C. Polyzos, and H. W. Braun (1993), “Traffic characteristics of the T1 NSFNET backbone”, Proc. IEEE INFOCOM’93, 2:885–892 Sách, tạp chí
Tiêu đề: Traffic characteristics of the T1 NSFNET backbone
Tác giả: K. C. Claffy, G. C. Polyzos, and H. W. Braun
Năm: 1993
[9] K.C. Claffy, H.-W. Braun, and G.C. Polyzos (1995), “A parameterizable methodology for internet traffic flow profiling”, IEEE Journal on Selected Areas in Communications, pages 1481–1494 Sách, tạp chí
Tiêu đề: A parameterizable methodology for internet traffic flow profiling
Tác giả: K.C. Claffy, H.-W. Braun, and G.C. Polyzos
Năm: 1995
[10] Raj Jain and Shawn A Routhier (1996), “Packet trains – measurements and a new model for computer network traffic”, IEEE Journal on Selected Areas in Communications, 4(6):986–995 Sách, tạp chí
Tiêu đề: Packet trains – measurements and a new model for computer network traffic
Tác giả: Raj Jain and Shawn A Routhier
Năm: 1996
[11] K. Thompson, G.J. Miller, and R. Wilder (1997), “Wide-area internet traffic patterns and characteristics”, IEEE Network, 11(6):10–23 Sách, tạp chí
Tiêu đề: Wide-area internet traffic patterns and characteristics
Tác giả: K. Thompson, G.J. Miller, and R. Wilder
Năm: 1997
[12] E. Drakopoulos (1992), “Analysis of a local computer network with workstations and x terminals”, 17th Conference on ocal Computer Networks, Proceedings., pages 206–215 Sách, tạp chí
Tiêu đề: Analysis of a local computer network with workstations and x terminals
Tác giả: E. Drakopoulos
Năm: 1992
[13] B.G. Barnett and E.T. Saulnier (1992), “High level traffic analysis of a LAN segment”, 17th Conference on Local Computer Networks, Proceedings., pages 188–197 Sách, tạp chí
Tiêu đề: High level traffic analysis of a LAN segment
Tác giả: B.G. Barnett and E.T. Saulnier
Năm: 1992
[14] F.Alvarez Del Pino, R.Chow, S.F. Hussaini, H.A. Latchman, and G.K. Madhusudan (1992), “Performance analysis and traffic characterization of an ethernet campus network to identify and develop possible smds applications and scenarios”, IEEE Southeastcon ’92, Proceedings , volume 1, pages 398–391 Sách, tạp chí
Tiêu đề: Performance analysis and traffic characterization of an ethernet campus network to identify and develop possible smds applications and scenarios
Tác giả: F.Alvarez Del Pino, R.Chow, S.F. Hussaini, H.A. Latchman, and G.K. Madhusudan
Năm: 1992
[15] K. Chandra and A.E. Eckberg (1997), “Traffic characteristics of on-line services”, Second IEEE Symposium on Computers and Communications, Proceedings, pages 17–21 Sách, tạp chí
Tiêu đề: Traffic characteristics of on-line services
Tác giả: K. Chandra and A.E. Eckberg
Năm: 1997
[22] C. Barakat, P. Thiran, G. Iannaccone, C. Diot, and P. Owezarski (2003), “Modeling Internet backbone traffic at the flow level”, IEEE Transactions on Signal Processing (Special Issue on Signal Processing in Networking) , 51(8):2111–2124 Sách, tạp chí
Tiêu đề: Modeling Internet backbone traffic at the flow level
Tác giả: C. Barakat, P. Thiran, G. Iannaccone, C. Diot, and P. Owezarski
Năm: 2003
[24] K. C. Claffy, H.-W. Braun, and G. C. Polyzos (1995), “A parameterizable methodology for internet traffic flow profiling”, IEEE JSAC Special Issue on the Global Internet Sách, tạp chí
Tiêu đề: A parameterizable methodology for internet traffic flow profiling
Tác giả: K. C. Claffy, H.-W. Braun, and G. C. Polyzos
Năm: 1995
[25] N. G. Duffield, C. Lund, and M. Thorup (2002), “Properties and prediction of flow statistics from sampled packet streams”, Proceedings of ACM Sigcomm Internet Measurement Workshop Sách, tạp chí
Tiêu đề: Properties and prediction of flow statistics from sampled packet streams
Tác giả: N. G. Duffield, C. Lund, and M. Thorup
Năm: 2002
[20] Peter H.Dana (2005), Global positioning system overview, http://www.colorado.edu/geography/gcraft/notes/gps/gps_f.html Link
[23] CAIDA, Cooperative AssocI.A.Tion for Internet Data Analysis, http://www.caida.org Link
[43] Cisco IOS Documentation (2006), Network-Based Application Recognition and Distributed Network-Based Application Recognition ,http://www.cisco.com/univercd/cc/td/doc/product/software/ios122/122newft/122t/122t8/dtnbarad.htm Link

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w