1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL

98 636 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 98
Dung lượng 3,04 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

LỜI NÓI ĐẦUNhu cầu trao đổi thông tin qua internet đang ngày càng gia tăng, đặc biệt trong những năm gần đây có sự xuất hiện của các mạng xã hội, các mạng chia sẻ trực tuyến, các cộng đồ

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Giáo viên hướng

Sinh viên thực hiện : Trần Bảo Nam

Hà Nội, 6-2014

Trang 2

LỜI NÓI ĐẦU

Nhu cầu trao đổi thông tin qua internet đang ngày càng gia tăng, đặc biệt trong những năm gần đây có sự xuất hiện của các mạng xã hội, các mạng chia sẻ trực tuyến, các cộng đồng game trực tuyến… để đáp ứng được lưu lượng thông tin khổng lồ qua lại hàng ngày đó, các các hệ thống trung tâm dữ liệu đang phải

mở rộng, đổi mới cả về kích thước với việc tăng số lượng máy chủ, các thiết bị mạng (switch, router) cũng như quy mô với nhiều trung tâm dữ liệu phân bố khắp thế giới Chẳng hạn những tập đoàn lớn Google, Microsoft, Facebook,… đang duy trì các trung tâm dữ liệu với hàng ngàn các server trên khắp thế giới Như một hệ quả tất yếu, việc tăng khả năng hoạt động cũng như chi phí dành cho hoạt động của trung tâm dữ liệu đang gia tăng chóng mặt và trở thành vấn đề cấp thiết thu hút nhiều sự quan tâm của các nhà nghiên cứu Tuy nhiên việc nghiên cứu, triển khai các biện pháp cải thiện kĩ thuật lưu lượng sẽ gặp khó khăn

do sự hiểu biết hạn chế về lưu lượng chảy trong trung tâm dữ liệu Tập trung vào vấn đề này, em đã thực hiện đề tài tốt nghiệp nghiên cứu về lưu lượng trong trung tâm dữ liệu và từ đó xây dựng nên một mô hình lưu lượng phù hợp cho trung tâm dữ liệu vừa và nhỏ tương ứng môi trường nghiên cứu cấp trường và cấp doanh nghiệp

Trong thời gian làm việc tại phòng nghiên cứu C9-201 cùng các thành viên

nhóm Openflow, em đã hoàn thành đồ án với đề tài: “NGHIÊN CỨU MÔ HÌNH HOÁ

LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL” Với những nỗ lực thực sự của bản thân và các thành viên trong nhóm,

chúng em đã có những kết quả nhất định Tuy nhiên thời gian thực hiện đồ án có hạn nên không thể tránh khỏi những thiếu sót Kính mong thầy cô và các bạn có

những góp ý để đồ án của em hoàn thiện hơn.

Xin trân trọng cảm ơn trường Đại học Bách khoa Hà Nội, Trung Tâm Đào Tạo Tài Năng, Viện Điện Tử Viễn Thông trong suốt 5 năm qua đã dạy bảo và cung cấp cho em những kiến thức nền tảng rất có ích phục vụ cho quá trình thực hiện

đồ án cũng như cuộc sống sau này.

Trang 3

Xin chân thành cảm ơn TS Nguyễn Tài Hưng, người đã trực tiếp hướng dẫn em thực hiện đồ án này, cùng PGS.TS Nguyễn Hữu Thanh, TS.Trương Thu Hương đã dìu dắt, giúp đỡ và tận tình chỉ bảo em trong suốt thời gian thực hiện

Sinh viên

Trần Bảo Nam

Trang 4

TÓM TẮT ĐỒ ÁN

Các hệ thống trung tâm dữ liệu đang phát triển một cách nhanh chóng để đáp ứng nhu cầu sử dụng Internet ngày càng tăng của cộng đồng mạng Do đó việc phát triển các kĩ thuật mạng, các kĩ thuật lưu lượng nhằm nâng cao khả năng lưu trữ, hoạt động của các trung tâm dữ liệu trở thành một vấn đề cấp thiết, thu hút sự quan tâm của rất nhiều nhà nghiên cứu Tuy nhiên việc nghiên cứu sẽ gặp khó khăn do sự hiểu biết hạn chế về lưu lượng chảy trong trung tâm

dữ liệu Tập trung vào vấn đề này, em đã thực hiện đề tài tốt nghiệp nghiên cứu

về lưu lượng trong trung tâm dữ liệu, phân tích các đặc điểm cả mức truyền thông mạng và mức truyền thông ứng dụng, đưa ra được mô hình lưu lượng phù hợp cho trung tâm dữ liệu vừa và nhỏ Căn cứ vào kết quả nghiên cứu, em đã hoàn chỉnh bộ phát lưu lượng D-ITG và xây dựng giả lập một mô hình lưu lượng hoàn chỉnh trên Mininet Cuối cùng, em đã đánh giá hoạt động của mô hình này.

ABSTRACT

Nowadays, data centers are growing rapidly to satisfy the tremendous traffic demand driven by the exponential development and popularity of the Internet The development of networking technologies and traffic engineering to improve storage capability and performance of data centers have attracted world-wide reseachers However, these researchers have encountered many challenges caused by the limited understanding about traffic in data centers In this thesis, my researches focus on the data center traffic, analyzing its features in network-communication level and application-communication level, providing an appropriate traffic model for small and medium data centers Based on the research results, I have complemented the D-ITG traffic generator and built up a virtual traffic model in Mininet environment Finally, I have evaluated the operation of the proposed model.

Trang 5

MỤC LỤC

DANH SÁCH HÌNH VẼ

Trang 6

DANH SÁCH BẢNG BIỂU

Trang 7

DANH SÁCH CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT

QoS Quality of Service Chất lượng dịch vụ

NAT Network Address Translation Chuyển đổi địa chỉ mạng

SSL Secure Socket Layer

VLAN Virtual Local Arena Network Mạng cục bộ ảo

ECMP Equal Cost Multi Path Đa đường cân bằng tải

MAC Media Access Control Giao thức điều khiển truy nhập PMAC Pseudo Media Address Control Địa chỉ MAC giả

IT Information Technology Công nghệ thông tin

GIỚI THIỆU ĐỀ TÀI

Tên đề tài: “ Nghiên cứu, đánh giá và mô hình hóa lưu lượng trong trung tâm dữ liệu dựa trên kết quả phân tích lưu lượng thu thập từ trung tâm dữ liệu Viettel”

Trang 8

Đồ án được chia thành 5 chương

- Chương 1: Tổng quan về trung tâm dữ liệu

Chương này giới thiệu về trung tâm dữ liệu, phân loại trung tâm dữ liệu, năng lượng tiêu thụ của các thành phần mạng trong trung tâm dữ liệu và định tuyến trong trung tâm dữ liệu.

- Chương 2: Nghiên cứu lưu lượng trong trung tâm dữ liệu theo Short-Scale Trong chương này sẽ nói về mô hình lưu lượng, đặc điểm của lưu lượng theo short-scale và đưa ra mô hình theo short-scale.

- Chương 3: Phân tích lưu lượng trong trung tâm dữ liệu theo Long-Scale Trong chương này tác giả phân tích các dữ liệu Voice, Video, Aggregation

và dữ liệu Web thu thập được trực tiếp từ trung tâm dữ liệu Viettel sau đó đưa ra mô hình cho hàm CDF của từng loại dữ liệu.

- Chương 4: Xây dựng Module phát lưu lượng sử dụng D-ITG

Trong chương này phân tích lý thuyết để xây dựng các module LogNormal

và module Logistic.

- Chương 5: Xây dựng môi trường thử nghiệm và đánh giá kết quả

Trong chương này đồ án trình bày việc xây dựng một môi trường giả lập hoàn chỉnh và đánh giá độ chính xác của các module xây dựng thêm trong từng trường hợp.

CHƯƠNG 1: TỔNG QUAN VỀ TRUNG TÂM DỮ LIỆU

Chương này sẽ trình bày khái quát về tầm quan trọng, đặc điểm kiến trúc mạng trung tâm dữ liệu cũng như khái niệm về trung tâm dữ liệu xanh Tiếp đó tác giả sẽ trình bày các đặc tính của lưu lượng trong mạng trung tâm dữ liệu dựa trên kết quả của các nghiên cứu điển hình trên một loạt các trung tâm dữ liệu lớn tại Mỹ Đây sẽ là cơ sở cho việc thiết kế giải pháp thích hợp cho việc thiết

Trang 9

kế các giải pháp tối ưu hóa topo và định tuyến thích hợp được trình bày trong các chương sau

1.1 Tổng quan về trung tâm dữ liệu

1.1.1 Tầm quan trọng của trung tâm dữ liệu

Trung tâm dữ liệu là nơi đặt các hệ thống máy tính lớn và các thành phần liên quan như hệ thống truyền dẫn và hệ thống lưu trữ Trung tâm này được thiết

kế để đảm bảo độ sẵn sàng và an toàn cao nhất cho dữ liệu với các nguồn dự phòng, kết nối dữ liệu dự phòng, các thiết bị kiểm soát môi trường (điều hòa không khí, chống cháy) và các thiết bị an ninh bảo mật.

Hình 1.1: Trung tâm dữ liệu

Nói một cách chung nhất, trung tâm dữ liệu được xây dựng nhằm đáp ứng nhu cầu như sau:

- Khi doanh nghiệp ngày càng phát triển nhu cầu tập trung dữ liệu để quản

lý và cung cấp cho nhiều chi nhánh của công ty là yêu cầu vô cùng cần thiết.

Trang 10

- Các dịch vụ trên Internet cần tập trung để xử lý một lượng thông tin cực lớn yêu cầu cần có một hệ thống có đủ sức mạnh xử lý và hệ thống Trung tâm dữ liệu ra đời để đáp ứng các nhu cầu cần thiết.

- Kinh tế cũng là vấn đề được đặt ra khi triển khai hệ thống Trung tâm dữ liệu với chi phí rất lớn nhưng lại rất tiết kiệm cho các chi phí quản lý và bảo dưỡng hệ thống, và rẻ hơn rất nhiều khi gộp nhiều hệ thống để có được khả năng xử lý của hệ thống Trung tâm dữ liệu.

Ngoài ra, chúng ta cũng cần hiểu rõ hơn về tính năng của trung tâm dữ liệu để thấy được khả năng cũng như sức mạnh của hệ thống này Có thể nói trung tâm dữ liệu có những tính năng như sau:

- Nơi tích hợp tất cả các công nghệ hàng đầu về mạng, hệ thống và phần mềm ứng dụng được sử dụng trong hệ thống Trung tâm dữ liệu.

- Mạng được thiết kế dành riêng đáp ứng yêu cầu cực cao về tốc độ truyền giữa các thiết bị, tính ổn định được coi trọng và vấn đề bảo mật cho hệ thống mạng được đặt lên hàng đầu Được cấu hình tối ưu và hỗ trợ khi một kết nối bị hỏng với một thiết bị thì thiết bị vẫn hoạt động bình thường với kết nối luôn ở tốc độ cao.

- Với hệ thống máy chủ có hiệu năng cực cao đáp ứng các ứng dụng chạy trên nó với độ trễ nhỏ nhất, thời gian đáp ứng thấp nhất, hỗ trợ nhiều ứng dụng và cấu hình hoàn hảo giúp hệ thống chạy 24/7 Đáp ứng các ứng dụng khắt khe nhất.

- Các phần mềm hỗ trợ sử dụng tối đa hiệu năng của phần cứng, giúp liên kết các máy chủ với Cluster tăng sức mạnh cho máy chủ và khả năng backup dữ liệu khi có sự cố xảy ra chỉ trong một thời gian ngắn hệ thống

có thể đi vào hoạt động như bình thường và dữ liệu được bảo vệ không bị mất.

1.1.2 Trung tâm dữ liệu xanh

Hiện nay vẫn chưa có tổ chức quốc tế nào đưa ra một bộ tiêu chuẩn chính thức cho trung tâm dữ liệu xanh Nhưng ta có thể hiểu một trung tâm dữ liệu

Trang 11

xanh là một trung tâm dữ liệu được thiết kế để tăng tối đa hiệu quả sử dụng năng lượng và giảm tối thiểu các tác động xấu tới môi trường

Trong tương lai, một trung tâm dữ liệu “xanh nhất” không nhất thiết phải

là một trung tâm dữ liệu có kiến trúc tiêu thụ năng lượng hiệu quả nhất hay là một trung tâm dữ liệu có thể tận dụng tốt nhất môi trường xung quanh để giảm năng lượng tiêu thụ cho các thiết bị làm mát Thực tế, trung tâm dữ liệu xanh được định nghĩa bằng hiệu quả của việc trung tâm dữ liệu đó chuyển đổi các tài nguyên mà nó sử dụng sang năng lực vận hành Năng suất IT cần tập trung vào 2 yếu tố: hiệu quả sử dụng của các tài nguyên IT và hiệu năng hoạt động mong muốn tính trên từng watt của các thiết bị IT

1.1.3 Kiến trúc mạng trong trung tâm dữ liệu

Hiện nay có rất nhiều trung tâm dữ liệu có tuổi thọ từ 10- 15 năm, đã trở nên lỗi thời khó có thể đáp ứng được các nhu cầu hiện nay, hơn nữa các trung tâm này còn tiêu tốn rất nhiều năng lượng cao hơn gấp 2-3 lần so với các thiết bị

IT hiện nay cần Nhu cầu mở rộng và thay thế bởi các trung tâm dữ liệu mới là điều tất yếu, đặc biệt hướng tới việc xây dựng các trung tâm dữ liệu xanh, có khả năng đáp ứng cao, tiêu thụ ít năng lượng và thân thiện với môi trường Các trung tâm dữ liệu cũ có kiến trúc mạng hạn hẹp đang phải đối mặt với các vấn đề như khả năng mở rộng kém, khó quản lý, khả năng kết nối kém và bị giới hạn trong việc di chuyển các máy ảo Các kiểu kiến trúc cũ thường ở dạng Tree (dạng 2N),

có từ 2 đến 3 tầng định tuyến và chuyển mạch Một kiến trúc 3 tầng bao gồm: tầng core là gốc của cây, tầng aggregation ở giữa và tầng edge là lá của cây Kiến trúc 2 tầng sẽ chỉ có core và aggregation Với kiến trúc này thường thì các chuyển mạch tầng dưới chỉ hội tụ vào một chuyển mạch ở tầng trên và sẽ gây ra mất mát lớn nếu chuyển mạch tầng trên gặp phải sự cố.

Error: Reference source not found bên dưới là một kiểu kiến trúc điển hình của trung tâm dữ liệu hiện nay Kiến trúc này được xây dựng với các tủ rack chứa các server, các rack liên kết trực tiếp với các switch tầng dưới, các switch tầng dưới liên kết với các switch tầng trên, tầng trên cùng liến kết với các core switch.

Trang 12

Hình 1.2: Topo của một trung tâm dữ liệu điển hình

Để thay thế các kiến trúc cũ các nhà phát triển đã đưa ra rất nhiều các loại kiến trúc khác nhau như Bcube [3], Dcell [16], VL2 [18], Fat-Tree [2]… đặt biệt là kiến trúc Fat-Tree với các ưu điểm định tuyến chống lỗi tầng 2.5 sử dụng địa chỉ PMAC (địa chỉ MAC giả), dạng topo đối xứng và cố định ứng với mỗi cấp nên dễ quản lý, có khả năng truyền lưu lượng đầy hai chiều ( full bisection bandwith) Kiến trúc này còn được nhiều nhà phát triển áp dụng để xây dựng nên kiến trúc Elastic Tree [1] với mục đích tiết kiệm năng lượng tiêu thụ trong mạng trung tâm

dữ liệu

Hình 1.3 là một dạng của kiến trúc Fat-Tree Kiến trúc này được xây dựng dựa trên các switch k-port , thường nghiên cứu với kiến trúc 3-Stages Fat-Tree Trong kiến trúc có hỗ trợ kết nối giữa /4 host , sử dụng switchs k-port Fat-Tree được chia ra làm k pod mỗi pod có chứa host, số core switch là số aggregation switch bằng số edge switch là /2 Các aggregation switch và edge switch nối với nhau tạo thành đồ thị hai phía đầy đủ.

Trang 13

Hình 1.3: Kiến trúc FatTree (k=4)

1.2 Phân loại trung tâm dữ liệu

1.2.1 Phân loại theo cơ sở hạ tầng

Dựa theo tiêu chuẩn TIA-942 về cơ sở hạ tầng của trung tâm dữ liệu, đơn

giản nhất là trung tâm dữ liệu cấp 1 , cơ bản giống như 1 phòng máy chủ Mức độ

cao nhất là trung tâm dữ liệu cấp 4, được thiết kế các hệ thống máy tính có

nhiệm vụ quan trọng , với đầy đủ các hệ thống con dự phòng và các kiểm soát an

ninh được điều khiển bởi các phương thức kiểm soát truy nhập sinh trắc học.

Bảng 1.1: Phân loại theo cơ sở hạ tầng

- Đáp ứng các yêu cầu của cấp 1

- Cơ sở hạ tầng site dự phòng đảm bảo sẵn sàng 99.741%

3

- Đáp ứng các yêu cầu của cấp 2

- Nhiều đường dẫn phân bố độc lập phục vụ các thiết bị IT

- Tất cả các thiết bị IT phải có nguồn kép và tương thích đầy đủ với topology của kiến trúc site

Trang 14

- Cơ sở hạ tầng site duy trì đồng thời đảm bảo sẵn sàng 99.741%

- Tất cả các thiết bị làm mát có nguồn kép độc lập, bao gồm hệ thống thiết bị làm lạnh và sưởi ấm thông gió và điều hòa không khí (HVAC)

- Cơ sở hạ tầng site chống lỗi có khả năng phân bố và lưu trữ năng lượng đảm bảo sẵn sàng 99,995%

1.2.2 Phân loại theo đối tượng sử dụng

Căn cứ vào đối tượng sử dụng trung tâm dữ liệu, từ đó có thể chia thành

ba loại trung tâm dữ liệu sau:

- Trung tâm dữ liệu trường đại học:

- Trung tâm dữ liệu doanh nghiệp

- Trung tâm dữ liệu điện toán đám mây

Bảng 1.2: Phân loại trung tâm dữ liệu theo đối tượng

Đặc điểm Đối tượng khách hàng Các loại dịch vụ

Số lớp

Trang 15

1.2.3 Phân loại theo quy mô trung tâm dữ liệu

Theo quy mô trung tâm dữ liệu, có thể phân trung tâm dữ liệu thành 3 loại:

- Trung tâm dữ liệu loại nhỏ: hàng chục máy chủ

- Trung tâm dữ liệu loại vừa: khoảng trên dưới 100 máy chủ

- Trung tâm dữ liệu loại lớn: hàng ngàn, chục ngàn máy chủ

Ta có thể đưa ra bảng đối chiếu các loại trung tâm dữ liệu như sau:

Bảng 1.3: Đối chiếu các loại trung tâm dữ liệu

Trung tâm dữ liệu trường học

Trung tâm dữ liệu doanh nghiệp

Trung tâm dữ liệu đám mây

1.3 Năng lượng tiêu thụ của các thành phần mạng trong trung tâm dữ

liệu

1.3.1 Mô hình công suất của các thiết bị mạng trong trung tâm dữ liệu

Năng lượng tiêu thụ chủ yếu bởi các thành phần mạng trong trung tâm dữ liệu là năng lượng tiêu thụ của các switch và router Hiện tại chúng ta chỉ biết được giá trị công suất tiêu thụ tối đa của các switch/router qua datasheet của chúng Năng lượng tiêu thụ thật sự của các switch/router phụ thuộc vào rất nhiều yếu tố như cấu hình của thiết bị và lượng tải mà thiết bị cần xử lý, do đó chỉ dựa vào công suất tiêu thụ tối đa sẽ không thể tính toán chính xác được năng lượng tiêu thụ thật Trong hai bài báo [19,20], các tác giả đã mô hình, đo đạc công suất tiêu thụ của nhiều loại thiết bị mạng và xây dựng mô hình dự đoán công suất tiêu thụ của bất kì switch/router nào Kết quả cho thấy cấu hình thiết

bị và lưu lượng thông tin đi qua sẽ ảnh hưởng đến công suất tiêu thụ của các thiết bị mạng Phần này của đồ án sẽ trình bày một số nội dung và kết quả thu được từ hai bài báo của cùng nhóm tác giả trên.

Mỗi một switch/router đều chứa nhiều thành phần cấu tạo khác nhau như: chassis, linecard, TCAM, RAM, processor, quạt,… Một switch/router đặc trưng

Trang 16

gồm một chassis (có thể hiểu là bộ khung của switch) chứa các slot cắm các linecard, mỗi linecard chứa nhiều port (cổng mạng) chính là các cổng giao tiếp của switch/router với các switch/router khác hoặc với các máy tính khác Việc đo thông số năng lượng tiêu thụ của tất cả các thành phần trong switch một cách toàn diện rất khó để thực hiện Dưới đây là các yếu tố quan trọng ảnh hưởng đến công suất tiêu thụ của switch/router:

- Công suất tiêu thụ của chassis: Các switch hiệu năng cao

chứa một chassis và một số lượng cố định các khe cắm (slot) dùng để cắm các linecard Đối với các switch hiệu năng thấp hơn (các switch phổ thông với 24 port trở xuống), các slot và linecard được gắn cố định, không thể thay đổi Trong cả hai trường hợp, công suất tiêu thụ cơ bản của chassis là tổng công suất tiêu thụ của một số thành phần khác nhau của switch như processor, quạt, memory,…

- Số lượng linecard: số lượng port của một linecard và tổng

lưu lượng thông tin mà nó có thể xử lý là có hạn Cơ chế cắm và rút các linecard trên các khe slot của switch cho phép các nhà quản lý mạng linh động cắm số lượng linecard cần thiết linh động đáp ứng nhu cầu về tải Hơn nữa, cơ chế đó cũng đưa ra nhiều lựa chọn cho việc cắm loại linecard phù hợp, ví dụ như cắm một linecard 24 port 1Gbps để có khả năng xử lý lưu lượng 24Gbps, hay cắm một linecard 4 port 10Gbps để có khả năng xử

lý lưu lượng 40 Gbps.

- Số lượng active port: thuật ngữ này đề cập tới tổng số port

trên switch (của tất cả các linecard) ở trạng thái hoạt động (active) Các port còn lại trên switch được tắt đi thông qua giao diện câu lệnh hỗ trợ tắt bật đưa ra từ nhà sản xuất.

- Công suất xử lý tối đa của một port (port capacity) hay

tốc độ hoạt động tối đa của một port: ta có thể thay đổi thông số công suất

xử lý tối đa của mỗi port để giới hạn tốc độ xử lý thông tin của port đó Ví

dụ, công suất xử lý tối đa của một port full-duplex 1Gbps có thể được cấu hình xuống 100Mbps hay 10Mbps Việc thay đổi công suất xử lý tối đa này

sẽ ảnh hưởng đến năng lượng tiêu thụ nói chung của switch Khi giảm

Trang 17

công suất xử lý tối đa, năng lượng tiêu thụ của port sẽ giảm, dẫn đến năng lượng tiêu thụ của cả switch nói chung giảm theo.

- Hiệu suất sử dụng của port (port utilization): thuật ngữ

này mô tả thông lượng thật chảy qua một port so với công suất xử lý tối đa của port đó Ví dụ trong trường hợp công suất xử lý tối đa của một port là 100Mbps, thông lượng dữ liệu đi qua port đó là 10Mbps, khi đó hiệu suất

sử dụng của port đó (hay port utilization) là 10% Phụ thuộc vào hiệu suất

sử dụng của port mà ta có thể thiết lập các giá trị công suất xử lý tối đa của port đó một cách phù hợp Ví dụ, nếu một port phải xử lý 60 Mbps lưu lượng, khi đó ta sẽ thiết lập công suất xử lý tối đa của switch là 100 Mbps

để có hiệu quả sử dụng năng lượng một cách tốt nhất.

- TCAM (Ternary Content Addressable Memory): hầu hết các

switch thực hiện việc phân loại packet trên phần cứng và hầu hết các nhà sản xuất sử dụng TCAM để thực hiện chức năng này do thời gian xử lý tìm kiếm của TCAM là rất nhanh Tuy nhiên, TCAM tiêu thụ một lượng công suất lớn Ngoài ra, kích thước TCAM trong các switch cũng khác nhau.

- Firmware: các nhà sản xuất cập nhật firmware cho

switch/router theo định kỳ Các phiên bản firmware khác nhau cũng có thể ảnh hưởng tới công suất tiêu thụ của switch/router.

Ngoài ra, đặc tính lưu lượng thông tin đi qua mỗi port cũng có thể ảnh hưởng tới công suất tiêu thụ của port đó Hai đặc tính quan trọng nhất của lưu lượng của một flow là kích thước mỗi gói tin và khoảng thời gian giữa hai gói tin liên tiếp.

Dựa vào mô hình năng lượng tiêu thụ của các thiết bị mạng khác nhau, chúng ta có thể xác định các thời điểm thích hợp để điều chỉnh hiệu quả công suất tiêu thụ của các thiết bị này Ví dụ, một port của switch sẽ bị tắt đi khi không có lưu lượng qua nó hay linh động điều chỉnh công suất tiêu thụ của một port dựa vào tải nó phải xử lý Do công suất tiêu thụ của một port phụ thuộc vào tốc độ hoạt động của nó, việc tiết kiệm năng lượng sẽ phụ thuộc vào lưu lượng port đó phải xử lý Trong trường hợp các thiết bị có nhiều linecard, khi không có lưu lượng đi qua các port của một linecard, toàn bộ linecard đó sẽ được tắt đi để tiết

Trang 18

kiệm năng lượng Cuối cùng, hiệu quả tiết kiệm năng lượng cao nhất đạt được khi tắt hoàn toàn một switch nếu không có lưu lượng qua nó.

Bảng sau thể hiện công suất tiêu thụ của switch với các cấu hình khác nhau.

Bảng 1.4: Công suất tiêu thụ của switch

Tóm lại, mô hình công suất tiêu thụ của một switch được thể hiện theo công thức tuyến tính như sau:

Trong đó:

- Powerchassis là công suất tiêu thụ của switch ở trạng thái không có lưu lượng đi qua, tuy nhiên switch vẫn đang ở trạng thái bật (idle).

- Powerlinecard là công suất tiêu thụ của một linecard khi không

có lưu lượng qua nó Nói cách khác, các port của line card không phải xử lý bất cứ lượng lưu lượng nào.

- Numlinecards là số linecard của switch

Trang 19

- Powerconfigsi là công suất tiêu thụ của một port chạy ở tốc độ i.

- numportsconfigsi là số port chạy ở tốc độ i.

- i: có thể có các giá trị 10Mbps, 100 Mbps hay 1Gbps.

Qua Error: Reference source not found ta thấy đối với Rack switch (các switch thường công suất xử lý thấp, ít hơn 24 cổng), do các linecard được gắn cố định, không thay đổi được nên công suất tiêu thụ của chassis chính là công suất tiêu thụ cơ bản và cố định của switch khi switch được bật mà không xử lý bất cứ một lượng lưu lượng nào, công suất tiêu thụ của linecard khi đó được bao gồm trong công suất tiêu thụ của chassis Mặt khác đối với các chuyển mạch tầng 2 có công suất xử lý cao hơn, số lượng các linecard có thể thay đổi bằng cách cắm/rút các linecard vào/ra các slot, nên không thể tính gộp vào công suất tiêu thụ của chassis Trong trường hợp này, mỗi linecard được cắm thêm vào, công suất tiêu thụ của switch sẽ tăng thêm 39W Tuy nhiên, trong cả hai trường hợp ta có thể thấy công suất tiêu thụ của các port trên switch phụ thuộc vào cấu hình tốc độ hoạt động của các port đó Tốc độ hoạt động tăng, công suất tiêu thụ của port cũng tăng lên.

Ngoài ra, ta có thể quan sát thấy công suất tiêu thụ của chassis chiếm phần lớn công suất tiêu thụ của switch, nên việc tắt các switch không sử dụng (không

có lưu lượng đi qua) sẽ mang lại lợi ích lớn nhất Lấy ví dụ 1 switch thường 24 port, khi không có lưu lượng đi qua sẽ tiêu thụ 146W, trong khi công suất tiêu thụ tối đa khi lượng lưu lượng tối đa qua (mỗi port đặt ở tốc độ hoạt động 1Gbps), công suất tiêu thụ của switch sẽ là: 146+0.87*24=167W Nếu ta không tắt switch khi không có lưu lượng đi qua, switch sẽ luôn tiêu thụ một lượng công suất nền rất lớn: 146W.

Về lý tưởng, một switch không có tải đi qua sẽ không tiêu thụ năng lượng (bằng cách tắt switch), và năng lượng sử dụng sẽ tăng lên theo lưu lượng thông tin đi qua nó Tiêu thụ năng lượng tỷ lệ với lượng tải cần xử lý là đặc tính được

kỳ vọng ở các switch trong tương lai Ngoài ra, ta cũng có thể đặt switch vào các trạng thái tiêu thụ năng lượng thấp như sleep, kết hợp với các kỹ thuật như Wake-on-LAN (kỹ thuật được sử dụng trong LAN đối với mạng máy tính, dùng

Trang 20

đánh thức các máy tính đang ở trạng thái sleep) để mang lại hiệu quả cao hơn về hiệu năng so với tắt switch, do thời gian chuyển giao giữa trạng thái sleep và trạng thái hoạt động là nhỏ hơn so với thời gian chuyển giao giữa trạng thái tắt

và trạng thái hoạt động bình thường Ở đây ta cần phân biệt hai khái niệm idle

và sleep Idle là trạng thái switch vẫn hoạt động, tuy nhiên không có lưu lượng đi qua nó Sleep là trạng thái switch ngừng hoạt động, tiêu thụ chỉ một phần năng lượng nhỏ, và có thể chuyển nhanh sang trạng thái hoạt động bằng kỹ thuật như Wake-on-LAN hoặc sử dụng proxy, tuy nhiên switch ở trạng thái sleep không có khả năng thực hiện các chức năng giao tiếp mạng Tuy nhiên, các switch hiện nay không có khả năng tiêu thụ năng lượng tỷ lệ với lượng tải qua nó, trên thực tế, đặc tính công suất tiêu thụ của các switch hiện nay rất xa so với tính tỷ lệ thuận

kỳ vọng có được trong các switch trong tương lai.

Hình vẽ sau miêu tả đặc tính tiêu thụ năng lượng của switch so với tải qua nó:

Hình 1.4: Đặc tính tiêu thụ năng lượng của switch so với tải

Từ các kết quả thu được, hai bài báo đưa ra một số kết luận quan trọng sau:

- Công suất tiêu thụ phụ thuộc vào số active port Việc tắt các port không được sử dụng (không có lưu lượng đi qua) sẽ làm giảm năng lượng tiêu thụ của thiết bị Công suất tiêu thụ của switch/router tăng tuyến tính với số active port.

Trang 21

- Công suất tiêu thụ phụ thuộc vào tốc độ hoạt động được cấu hình của mỗi port (chính là công suất xử lý tối đa của mỗi port) Cấu hình hoạt động ở tốc độ càng cao, port càng tiêu thụ nhiều năng lượng, cụ thể P1Gbps>P100Mbps>P10Mbps Kết quả này là do một lượng năng lượng tăng lên trong hoạt động ở tầng vật lý (PHY) ở tốc độ cao hơn Do đó, một phương pháp để tiết kiệm năng lượng là thiết lập tốc độ tối đa hoạt động của port phù hợp với tốc độ lưu lượng đi qua nó Hiện nay, các cổng của switch luôn hoạt động ở trạng thái tốc độ tối đa, không có khả năng thông minh, tự động thay đổi tốc độ theo lưu lượng qua nó.

- Lượng traffic đi qua không có ảnh hưởng đến công suất tiêu thụ của các thiết bị mạng (nói một cách chính xác là ảnh hưởng không đáng kể) Ngoài ra, công suất tiêu thụ độc lập với kích thước của các gói tin.

- Công suất tiêu thụ của các thiết bị mạng còn phụ thuộc vào một số yếu tố khác như phiên bản firmware của switch/router Số slot TCAM được

sử dụng không ảnh hưởng đến công suất tiêu thụ.

Dựa vào đặc tính tiêu thụ năng lượng của các switch, phần tiếp theo sẽ trình bày một số kỹ thuật được dùng trong tiết kiệm năng lượng tiêu thụ của các thiết bị mạng trong trung tâm dữ liệu Các kỹ thuật này rất hứa hẹn, tuy nhiên hầu như chúng chỉ được đánh giá qua mô phỏng, chưa có

mô hình nào thực sự được triển khai trong thực tế để kiểm chứng tình hiệu quả của chúng.

1.3.2 Các kỹ thuật tiết kiệm năng lượng trong mạng trung tâm dữ liệu

Các thiết bị mạng tiêu thụ một lượng năng lượng khổng lồ và năng lượng tiêu thụ này hầu như độc lập với lưu lượng thông tin đi qua chúng Để đáp ứng nhu cầu thiết yếu của việc cắt giảm chi phí hoạt động, nghiên cứu các giải pháp tiết kiệm năng lượng tiêu thụ bởi các thiết bị mạng là một bước quan trọng trong tiết kiệm chi phí năng lượng nói chung trong trung tâm dữ liệu.

Do một số nỗ lực đưa ra các kiến trúc ảo hóa mạng gần đây như các dự án GENI, Planet, OpenFlow, các nhà nghiên cứu đã có thể kiểm tra các kết quả công việc của mình qua các mô hình lớn với các chuyển mạch ảo hóa, có thể dùng giả

Trang 22

lập cả những trung tâm dữ liệu lớn với hang trăm ngàn server Phần sau đây, ta

sẽ đi vào trình bày ba kỹ thuật chính được đề xuất trong tiết kiệm năng lượng của các thiết bị mạng trong các trung tâm dữ liệu.

Bên cạnh thích ứng linh hoạt trạng thái các thiết bị trong mạng trung tâm

dữ liệu với tải qua nó bằng cách sử dụng các kỹ thuật như thay đổi tốc độ hoạt động của các port trên switch, hay tắt các switch và link không hoạt động, ta còn

có thể tiết kiệm năng lượng bằng cách kết hợp các thuật toán phân chia job (chính là các yêu cầu cần xử lý từ khách hàng) đến các nguồn tài nguyên mạng (server, switch) một cách hợp lý, tập trung lưu lượng vào một số lượng switch, link, và server ít hơn Thuật toán phân chia job nhận thức năng lượng cần tính đến cả các yếu tố là hiệu suất sử dụng hiện tại của mạng, đồ hình của mạng trước khi gán các server để xử lý một job nào đó.

Chúng ta sử dụng một bộ điều khiển mạng tập trung (trong đồ án, bộ điều khiển mạng này chính là NOX, sẽ được trình bày ở chương 2) để tập hợp các thông tin về lưu lượng từ tất cả các switch trong trung tâm dữ liệu (ngoài ra có thể sử dụng một số công cụ khác như SNMP để tổng hợp các thông tin này), sau

đó tính toán hiệu suất sử dụng của mỗi port trên các switch Dựa trên thông tin này, bộ điều khiển mạng sẽ giao tiếp với tất cả các switch và thực hiện các hành động như tắt các switch không hoạt động, tắt các port không hoạt động hay thích ứng tốc độ hoạt động của link/port theo tải qua nó Ba thuật toán tiết kiệm năng lượng gồm có:

- Thích ứng trạng thái link (LSA-Link State Adaption): trong phương

pháp này, bộ điều khiển công suất các thiết bị mạng sử dụng thông tin về lưu lượng của mỗi link và thay đổi trạng thái hoạt động của link theo lưu lượng đang chạy qua link đó Một link có 4 trạng thái hoạt động là: tắt, 10Mbps, 100Mbps và 1Gbps Các này đảm bảo lưu lượng đi qua được xử lý

ở tốc độ hoạt động thích hợp nhất của link để giảm công suất tiêu thụ của port Ví dụ, lưu lượng 90 Mbps sẽ được xử lý bởi link có tốc độ hoạt động

100 Mbps Tuy nhiên, nếu đơn thuần chi thay đổi trạng thái link theo tải

Trang 23

đặt vào nó, hiệu năng và độ tin cậy sẽ không được đảm bảo Để khắc phục điểm này, ta có thể đặt một mức ngưỡng chuyển trạng thái link Ví dụ, luôn đảm bảo lưu lượng đi qua không vượt quá một mức ngưỡng nào đó, chả hạn 70% trạng thái link hiện tại Tức là lưu lượng nhỏ hơn 70 Mbps sẽ được phục vụ bởi link 100Mbps, tuy nhiên khi lưu lượng vượt quá 70Mbps,

ta sẽ phải dùng link 1Gbps Ngoài ra, cũng với mục đích cải thiện hiệu năng

và tính tin cậy, chống lỗi, ta luôn đảm bảo có một đường dư thừa (chỉ đặt

ở 10 Mbps) để xử lý lưu lượng có thể tăng đột biến Bằng cách thay đổi trạng thái link, ta đã gián tiếp giảm năng lượng tiêu thụ cho mỗi switch nối với link đó do mỗi link đều nối với 2 port, thay đổi trạng thái link chính

là thay đổi tốc độ hoạt động của port.

- Tập trung lưu lượng vào một số link và switch (NTC-Network Traffic

Consolidation): sử dụng phương pháp kỹ thuật lưu lượng (traffic engineering) để tập trung lưu lượng vào một số lượng link và switch ít hơn, khi đó các link và switch không có lưu lượng đi qua sẽ bị tắt đi Ví dụ, khi chưa sử dụng kỹ thuật lưu lượng, hai flow cùng loại có cùng tốc độ 0.3 Mbps đi qua 2 link khác nhau, mỗi link sẽ phải hoạt động ở tốc độ 1Gbps Sau khi sử dụng kỹ thuật lưu lượng, hai flow này sẽ được dồn vào 1 link với lưu lượng tổng cộng 0.6 Mbps, do đó link 1Gbps này vẫn đủ khả năng lý lượng tải này, link còn lại sẽ được tắt đi Phương pháp này giảm đáng kể năng lượng tiêu thụ bằng cách loại bỏ tất cả các sự dư thừa trong mạng (lượng tài nguyên mạng là tối thiểu để đáp ứng nhu cầu lưu lượng hiện tại, các link/port đều trong trạng thái hiệu suất sử dụng cao nhất có thể) Tuy nhiên phương pháp này sẽ ảnh hưởng lớn đến tính tin cậy của mạng trung tâm dữ liệu do không có các đường dư thừa trong topo nếu ta sử dụng cách tắt các link không có lưu lượng đi qua (cũng như tắt toàn bộ switch khi switch đó kết nối với tất cả các link rỗi, không có lưu lượng qua) Tuy không có tính thực tế, nhưng phương pháp này cho ta thấy tính đối lập giữa tiết kiệm năng lượng và tính chống lỗi, độ tin cậy Lượng năng lượng tiêu thụ giảm càng nhiều, độ tin cậy, tính chống lỗi càng giảm Tuy nhiên, để khắc phục điểm này, ta có thể biến đổi phương pháp này một

Trang 24

chút ví dụ thay bằng cách tắt link không hoạt động ta sẽ chuyển trạng thái link đó sang tốc độ 10Mbps tương tự như cách chống lỗi, tăng hiệu năng của phương pháp LSA ở trên.

- Tập trung lưu lượng vào một số ít các server (Server Load

Consolidation-SLC): các thuật toán phân chia job (phân chia công việc xử

lý các yêu cầu từ người dùng dịch vụ của trung tâm dữ liệu) hiện tại không xem xét đến lưu lượng mạng và đồ hình mạng Một cách gián tiếp để tập trung lưu lượng mạng vào một số lượng link ít hơn và cho phép bộ điều khiển mạng tắt các port và các switch không được sử dụng là di chuyển job để mà một số ít hơn server được dùng để xử lý các job đi vào hệ thống trung tâm dữ liệu Thuật toán cần đảm bảo các nguồn tài nguyên của server như là CPU và memory đủ để xử lý các job của hệ thống Kết hợp việc tập trung lưu lượng vào một số ít hơn các server và phương pháp tập trung lưu lượng vào một số lượng link ít hơn, ta sẽ thu được kết quả tiết kiệm năng lượng nhiều nhất.

Nhược điểm tất yếu của các phương pháp tiết kiệm năng lượng sẽ dẫn đến giảm chất lượng dịch vụ, độ tin cậy và tính chống lỗi của hệ thống do độ dư thừa giảm đi, số nguồn tài nguyên tính toán ít đi Ví dụ, một link tốc độ xử lý tối đa 1Gbps có 5Mbps lưu lượng thông tin qua nó, sử dụng phương pháp thích ứng tốc

độ link (LSA), trạng thái link sẽ chuyển từ tốc độ hoạt động 1Gbps xuống 10Mbps

để tiết kiệm năng lượng, tuy nhiên điều này dẫn đến tăng trễ do trễ hàng đợi tăng Để làm giảm các ảnh hưởng về hiệu năng của hệ thống, ta có thể thêm một

số hạn chế vào các thuật toán ở trên ví dụ đảm bảo hiệu suất sử dụng của một link không bao giờ được vượt quá một ngưỡng nhất định trước khi thay đổi tốc

độ của nó Thông thường, mức ngưỡng được chọn theo kinh nghiệm của các hệ thống trung tâm dữ liệu là 70% Khi đó trễ giảm và tính chống lỗi sẽ tăng lên.

Tóm lại, ngoài các giải pháp cải thiện phần cứng, có 3 phương pháp chính

để tiết kiệm năng lượng tiêu thụ trong trung tâm dữ liệu là: thay đổi thích ứng trạng thái link theo tải đặt vào nó, tập trung tải vào một số lượng link ít hơn, và cuối cùng là tập trung lưu lượng vào một số lượng server ít hơn Kết hợp ba

Trang 25

phương pháp này sẽ cho ta kết quả tiết kiệm năng lượng cáo nhất Tuy nhiên, do hạn chế về thời gian, kiến thức cũng như công cụ thực hiện, trong đề tài tốt nghiệp này, nhóm nghiên cứu chưa khai thác được ưu tất cả các ưu điểm của cả

3 phương pháp này Đề tài chỉ tập trung vào hai phương pháp đầu đựa trên kỹ thuật lưu lượng tập trung tải vào một số ít các link, switch, thay đổi tốc độ link theo tải đặt vào nó, và tắt các link và switch không được sử dụng.

1.4 Định tuyến trong trung tâm dữ liệu

Hiện nay có rất nhiều phương pháp định tuyến được sử dụng trong các mạng trung tâm dữ liệu Có thể phân biệt hai hướng tiếp cận ở mức cao là thiết lập một mạng theo Lớp 2 và theo Lớp 3, mỗi hướng này đều có những ưu và nhược điểm riêng Hướng tiếp cận theo việc thiết lập mạng Lớp 3 sẽ gán địa chỉ

IP cho tất cả các host trong mạng theo từng cấp dựa vào switch kết nối trực tiếp với host đó Ví dụ trong một mạng trung tâm dữ liệu 3 tầng, tất cả các host kết nối trực tiếp với cùng một switch ở tầng ToR (Top of Rack) sẽ được gán 26 bít tiền tố giống nhau, tất cả các host ở cùng một hàng sẽ có cùng 22 bít tiền tố Việc gán địa chỉ IP một cách chính xác và hợp lý sẽ giảm được kích thước các bảng định tuyến của tất cả các switch trong mạng.

Các giao thức định tuyến nội mạng chuẩn như OSPF được sử dụng để tìm

ra đường ngắn nhất giữa các host Sai sót trong các mạng với kích thước lớn là điều rất dễ xảy ra OSPF có thể dò được lỗi và quảng bá thông tin cho tất cả các switch trong mạng để tránh các liên kết hoặc switch bị lỗi khi định tuyến Vòng lặp trong định tuyến Lớp 3 thường ít xảy ra bởi vì lớp IP có trường TTL (Time to live) sẽ hạn chế việc gửi các gói tin mỗi lần đi qua một bảng định tuyến.

Tuy nhiên phương pháp định tuyến theo Lớp 3 có nhược điểm là khối lượng việc quản trị rất lớn Trên thực tế, việc thêm một switch vào mạng đòi hỏi người quản trị phải tự thao tác cấu hình, việc này rất dễ gây ra lỗi Trong trường hợp xấu, khi trạng thái của các thiết bị trong mạng được đồng bộ không chính xác có thể dẫn đến việc không kết nối được với các host và khó có thể phân tích lỗi Ngoài ra tầm quan trọng ngày càng tăng của ảo hóa mạng làm cho phương pháp định tuyến Lớp 3 trở nên không tối ưu

Trang 26

Với những lý do trên, một số mạng trung tâm dữ liệu hiện nay đã áp dụng phương pháp định tuyến theo Lớp 2 trong đó việc định tuyến các gói tin dựa trên địa chỉ MAC Phương pháp định tuyến Lớp 2 yêu cầu rất ít khối lượng quản trị, tuy nhiên cũng có những trở ngại riêng Phương pháp Standard Ethernet Bridging không thể mở rộng mạng ra tới hàng chục nghìn host vì nó đòi hỏi phải

hỗ trợ quảng bá ra toàn mạng Ngoài ra, phương pháp định tuyến đơn đường theo kiểu spanning tree (cho dù đã được thiết kế tối ưu) cũng có giới hạn về hiệu năng trong các topo mạng có nhiều đường với giá bằng nhau Hiện nay đã có một

số nghiên cứu về phương pháp định tuyến theo Lớp 2 trong mạng trung tâm dữ liệu

1.4.1 Định tuyến đơn đường

Các phương pháp định tuyến đơn đường (Single Path Forwarding Routing Algorithms) xác định một đường duy nhất có giá nhỏ nhất để forward các gói tin Giá của đường đi có thể được xác định với các tiêu chí khác nhau, ví dụ như tổng

số nút mạng của đường đi hoặc tổng lưu lượng tải trên đường đi đó Cấu trúc của mạng trung tâm dữ liệu là dạng cấu trúc cây nhiều gốc, giữa một cặp host bất kỳ luôn luôn có nhiều đường đi Chính vì vậy phương pháp định tuyến đơn đường không tận dụng đường tính đa đường trong mạng trung tâm dữ liệu Ngoài ra nếu chỉ xét đến số nút mạng của đường đi khi chọn đường có giá nhỏ nhất thì phương pháp định tuyến đơn đường lúc đó sẽ không có khả năng cân bằng tải

Trang 27

Hình 1.5: Định tuyến đơn đường

1.4.2 Định tuyến đa đường

Kiến trúc phổ biến của các mạng trung tâm dữ liệu hiện nay là kiến trúc cây đa gốc Giữa hai host bất kỳ trong mạng có rất nhiều đường đi Vấn đề đặt ra

là làm sao để chuyển các dòng lưu lượng đi một cách đồng thời trên tất cả các đường có thể Việc này sẽ làm giảm được sự tỷ lệ quá tải trên các liên kết và tăng thông lượng tổng hợp của toàn mạng

Tuy nhiên các giao thức định tuyến đang tồn tại cho tới bây giờ đều được cấu hình để lựa chọn một đường đi duy nhất giữa một cặp host nguồn-đích Phương pháp định tuyến đơn đường tĩnh này sẽ làm giảm đáng kể thông lượng của mạng trung tâm dữ liệu Phương pháp định tuyến đa đường mới nhất hiện nay đang được sử dụng trong thương mại và trong các mạng trung tâm dữ liệu

là phương pháp ECMP [12].Trong phương pháp ECMP, các luồng lưu lượng sẽ được chia nhỏ dựa trên kỹ thuật hashing và chuyển qua tất cả các đường đi có thể Tuy nhiên việc chia nhỏ luồng và chọn đường của ECMP được thực hiện tĩnh, không tính toán đến tải hiện thời của mạng cũng như kích thước của luồng dữ liệu Việc này sẽ dẫn đến va chạm làm tràn bộ đệm của các switch dẫn đến mất gói khi có nhiều luồng dữ liệu có kích thước lớn cùng được định tuyến đi qua một switch

Trang 28

Hình 1.6: Định tuyến ECMP

Để tận dụng được tính đa đường của kiến trúc mạng trung tâm dữ liệu, các switch hỗ trợ thuật toán ECMP được cấu hình với nhiều đường định tuyến với một mạng con cho trước Khi một gói tin đến switch, switch sẽ lựa chọn đường đi tiếp theo cho gói tin đó bàng cách chia module một số trường của gói tin đó (địa chỉ MAC nguồn, địa chỉ MAC đích, địa chỉ IP nguồn, địa chỉ IP đích, mã giao thức

…) cho số cổng ra có thể Nếu cả địa chỉ nguồn và đích của gói tin được chọn để tính toán cổng ra trong kỹ thuật hashing thì tất cả các gói tin của cùng một luồng

sẽ đi trên cùng một đường, và thứ tự của chúng khi đến đích được bảo toàn Nếu như các gói tin của cùng một luồng đến đích sai thứ tự sẽ làm giảm đáng kể hiệu năng của giao thức TCP Lý do vì trong giao thức TCP, phía đích sẽ hiểu việc cái gói tin đến sai thứ tự như là mất gói do tắc nghẽn mạng và yêu cầu phía nguồn gửi lại gói tin đó, việc này sẽ tăng lưu lượng không cần thiết trong toàn mạng.

1.5 Kết luận chương

Trong chương này đồ án đã đưa ra cái nhìn tổng quan về trung tâm dữ liệu bao gồm vai trò, kiến trúc,đồng thời thực hiện so sánh phân loại các loại trung tâm dữ liệu khác nhau Theo đó, trung tâm dữ liệu vừa và nhỏ chính là loại

Trang 29

trung tâm dữ liệu phù hợp đối với môi trường nghiên cứu trong trường đại học

sẽ là đối tượng tập trung nói đến trong đồ án của em

CHƯƠNG 2: NGHIÊN CỨU LƯU LƯỢNG TRONG TRUNG TÂM DỮ

LIỆU THEO SHORT-SCALE

Trang 30

2.1 Tổng quan về mô hình lưu lượng

2.1.1 Tầm quan trọng của mô hình lưu lượng

Mục đích chính của mạng viễn thông là cung cấp các dịch vụ thỏa mãn yêu cầu của người sử dụng, những yêu cầu đó có thể nói ngắn gọn là QoS Trong việc thiết kế mạng viễn thông, giới hạn tài nguyên mạng luôn là một trở ngại cho việc đảm bảo QoS do đó luôn cần có sự cân bằng giữa hai yếu tố này Để đảm bảo QoS, phải đạt được việc tối ưu hóa tài nguyên mạng và kéo theo đó là cần có một mô hình mạng chính xác Việc mô hình hóa một mạng yêu cầu một mô hình lưu lượng tốt có khả năng bắt được các ứng xử của lưu lượng trong mạng thật Do

đó, mô hình hóa lưu lượng là bước căn bản đầu tiên tối ưu hóa tài nguyên mạng.

2.1.2 Các tiêu chuẩn đánh giá của mô hình lưu lượng

Các tiêu chuẩn đánh giá mô hình lưu lượng gồm có [14]:

2.1.2.1 Tính chính xác(Accuracy)

Mô hình có thể thu thập được các ứng xử của lưu lượng ở mức độ như thể nào? Một mô hình lưu lượng có tính chính xác cao tức là nó có thể bao quát được hết các ứng xử của lưu lượng thực tế.

2.1.2.2 Khả năng dễ phân tích(Analytical tractability)

Khả năng dễ phân tích luôn là một trở ngại lớn nhất đối với việc khởi tạo một mô hình lưu lượng Khả năng dễ phân tích đòi hỏi mô hình lưu lượng cần dễ kiểm tra và có khả năng xác định các tham sô của mô hình bằng các số liệu quan sát được Trong những năm gần đây thì có rất nhiều mô hình được đề xuất là có tính chính xác, nhưng không dễ phân tích, có nhiều mô hình dễ phân tích nhưng không đủ chính xác Do đó, cần có sự cân bằng giữa sự chính xác của mô hình và khả năng dễ phân tích của mô hình.

2.1.2.3 Tính mở rộng(Flexibility )

Mô hình lưu lượng trong một mạng có khả năng đặc trưng hóa các loại lưu lượng khác nhau trong mạng đó không? Giá trị của mô hình lưu lượng sẽ

Trang 31

tăng lên khi nó có thể điều chỉnh được các tham số đặc trưng để mô tả các loại lưu lượng khác nhau

2.1.3 Mô tả toán học của lưu lượng

Theo [14], để mô tả toán học các mô hình lưu lượng cần xem xét các yếu tố sau:

2.1.3.1 Các tiến trình ngẫu nhiên

Cách thông thường nhất để mô tả lưu lượng mạng là hai tiến trình ngẫu nhiên: tiến trình đếm và tiến trình thời gian inter-arrival.

Trong các tiến trình đếm, lưu lượng mạng được được mô hình hóa như là

số lượng packet tới trong 1 khoảng thời gian định trước, trong khi thời gian giữa các lần gửi liên tiếp là theo tiến trình thời gian inter-arrival Hiện tại tiến trình đếm được sử dụng thường xuyên hơn

2.1.3.2 Thước đo thống kê

Như đã nói ở trên, các tiến trình ngẫu nhiên là nền tảng cho hầu hết các

mô hình lưu lượng Do đó, đặc điểm của mô hình lưu lượng được điều chỉnh bởi các thước đo thống kê của các tiến trình ngẫu nhiên này.

Thước đo thống kê của một tiến trình ngẫu nhiên ở bậc 1 chính là các giá trị như tỉ lệ trung bình, hàm mật độ xác suất (pdf) của số lượng packet đến trong

1 khoảng thời gian và của thời gian inter-arrival Thước đo thống kê bậc 2 cơ bản sẽ là mật độ phổ công suất (PSD), chỉ số phân tán cho biến đếm (IDC), tỉ lệ trùng hợp ngẫu nhiên (CR) và hàm hiệp phương sai (COV) Chúng ta có thể mô tả đơn giản các thước đo thống kê bậc 2 như sau:

- PSD: cung cấp thước đo xem cường độ tiến trình tập trung ở các dải tần

số khác nhau như thế nào.

- CR: đo lường sự tự tương quan giữa 2 lần tới với 1 thời gian trễ xác định giữa chúng.

- IDC: đo lường giá trị phương sai liên hệ với các đặc tính, và được xác định như là số lần tới trong 1 cửa sổ thời gian với độ rông Ts, được chia ra bởi số trung bình các lần tới.

Trang 32

- COV: được sử dụng để đo lường hiệp phương sai giữa số lần tới trong 2 cửa sổ thời gian đếm độ rộng Ts và khoảng cách kTs.

2.2 Đặc điểm của lưu lượng theo short-scale

Hình 2.7: Tỉ lệ dữ liệu trên ứng dụng ở các switch lớp biên

Trong mỗi trung tâm dữ liệu này, dữ liệu được lấy ra bao gồm: topology mạng, packet trace từ các switch được chọn và dữ liệu SNMP từ các giao tiếp mạng của các switch

- Dữ liệu SNMP: đối với mỗi trung tâm dữ liệu được quan sát, việc thu thập các nhóm dữ liệu SNMP MIB cho dữ liệu vào/ra được thực hiện trong mỗi khoảng

Trang 33

thời gian từ 1 đến 30 phút Đối với 5 trung tâm dữ liệu đám mây, 2 trung tâm dữ liệu doanh nghiệp, ta có thể lấy thêm dữ liệu về số packet bị discard Trong mỗi trung tâm dữ liệu, dữ liệu SNMP được thu thập ít nhất 10 ngày Trong 1 vài trường hợp dữ liệu SNMP được thu thập trong nhiều tuần.

- Topology mạng: Đối với các trung âm dữ liệu doanh nghiệp và trung tâm

dữ liệu trường đại học, topology mạng được thu thập thông qua giao thức CDP của Cisco cho phép lấy được cả topology mạng và dung lượng link

- Packet trace: Cuối cùng, dữ liệu packet trace được thu thập từ 1 vài trung tâm dữ liệu doanh nghiệp và trường học Các dữ liệu này sẽ được thu thập trong thời gian 12 giờ và qua nhiều ngày Do không thể thực hiện trên toàn bộ trung tâm dữ liệu nên việc thu thập chỉ thực hiện trên các trung tâm dữ liệu EDU1, EDU2 EDU3, PRV2 bằng cách gắn các sniffer trên các vị trí ngẫu nhiên để lấy packet trace.

Bảng 2.5: Số vị trí đăt sniffer trong các trung tâm dữ liệu

Trung tâm dữ liệu Số vị trí đặt sniffer

500 1093 147

Trang 34

X X X X X

562 763 612 427 427

10K 15K 12K 10K 10K

2.2.2 Phân tích dữ liệu và đánh giá đặc điểm của lưu lượng

Việc phân tích dữ liệu thu thập được sẽ được thực hiện theo 2 mức:

- Phân tích dữ liệu ở mức giao tiếp mạng, trả lời câu hỏi: lưu lượng trong mạng tập trung trong rack hay ngoài rack và mức độ sử dụng link ở các cấp của trung tâm dữ liệu khác nhau như thế nào?

- Phân tích dữ liệu ở mức giao tiếp ứng dụng, thực hiện ở cấp độ flow và cấp độ packet, tương ứng rút ra được đặc tính của flow và packet trong trung tâm dữ liệu.

2.2.2.1 Phân tích dữ liệu mức giao tiếp mạng

a) Các luồng lưu lượng

Bước đầu tiên chính là kiểm tra sự liên hệ giữa lưu lượng chảy trong cùng

1 rack (lưu lượng Intra-Rack) và lưu lượng chảy sang rack khác hoặc ra các đích bên ngoài (lưu lượng Extra-Rack) Lưu lượng Extra-Rack có thể trực tiếp đo được chính bằng lưu lượng đường uplink của các switch lớp edge Còn về lưu lượng Intra-Rack có thể được tính bằng sự chênh lệch giữa lưu lượng được tạo

ra bởi các server truyền tới các switch lớp biên và lưu lượng rời khỏi các switch lớp biên.

Hình 2.8 là đồ thị tỉ lệ giữa lưu lượng Intra-Rack và Extra-Rack Từ đồ thị

Trang 35

tránh cho việc 1 rack chứa nhiều ứng dụng/dịch vụ, chính các nhà quản trị đã thực hiện việc đưa các thành phần phụ thuộc vào cùng 1 rack và tạo nên kết quả này.

- Đối với trung tâm dữ liệu trường đại học và trung tâm dữ liệu doanh nghiệp, ít nhất 50% lưu lượng rời khỏi rack, khác hẳn so với mức 25% của các trung tâm dữ liệu đám mây Những trung tâm dữ liệu này chạy các ứng dụng phục vụ người dùng như dịch vụ Web và server lưu trữ, có nhiều điểm tương tự với các trung tâm dữ liệu đám mây, nhưng kết quả lại có sự khác biệt Khả năng

có thể nghĩ đến chỉ đơn giản là do trong các trung tâm dữ liệu này, việc tối ưu cho các dịch vụ phụ thuộc đã không được tốt như trong trung tâm dữ liệu đám mây.

Hình 2.8: Tỉ lệ lưu lượng Intra-Rack và Extra-Rack

b) Hiệu suất sử dụng link

Hiệu suất sử dụng link được đánh giá từ các dữ liệu SNMP, từ đồ thị Hình 2.9 ta có thể đưa ra nhận xét như sau:

- Hiệu suất sử dụng trong lớp core và aggregation cao hơn lớp edge, nhận xét này đúng với tất cả các loại trung tâm dữ liệu.

- Kết quả này là do số lượng link ở lớp core ít hơn số lượng link ở lớp edge

và dung lượng của link ở lõi lớn hơn ở tập hợp và lớn hơn ở biên.

Trang 36

Hình 2.9: CDF của hiệu suất sử dụng link trong mỗi lớp

Trang 37

2.2.2.2 Phân tích dữ liệu mức giao tiếp ứng dụng

Để phân tích dữ liệu ở mức giao tiếp ứng dụng, dữ liệu được sử dụng chính là các packet trace thu thập được từ 4 trung tâm dữ liệu EDU1, EDU2, EDU3, PRV2 như đã nêu trong phần 2.2.1.

a) Mức độ flow

Hình 2.10: Định nghĩa 1flow

Số active flow trong 1 s

Hình 2.11: CDF của số lượng active flow tại switch biên

Flow

Trang 38

Hình 2.11 là phân bố của số lượng active flow trong các gói 1s được đánh giá tại 7 switch bên trong 4 trung tâm dữ liệu Từ đồ thị có thể thấy rằng:

- số lượng active flow tại mọi khoảng thời gian là nhỏ hơn 10,000.

- Các switch trong các trung tâm dữ liệu trường đại học EDU1, EDU2, EDU3 và switch PRV24 có số lượng active flow nằm trong khoảng 10 đến 500 chiếm 90% các khoảng thời gian.

- Các switch còn lại gồm PRV21, PRV22, PRV23 có số lượng active flow nằm trong khoảng 1000 đến 5000 chiếm 90% thời gian.

Thời gian inter-arrival của các flow

Hình 2.12 là đồ thị thời gian inter-arrival theo dơn vị μs, ta có thể đưa ra nhận xét sau:

- 2 đến 13% số flow có thời gian giữa hai lần đến nhỏ hơn 10 μs

- Trong hầu hết các switch trong PRV2, 80% thời gian inter-arrival dưới 1ms

- Đối với các switch trong trung tâm dữ liệu dạng trường đại học, 80% thời gian inter-arrival nằm trong dải 4 đến 40ms.

Trang 39

Hình 2.12: CDF của tốc độ đến của flow tại switch biên

Kích thước flow

Từ Hình 2.13, ta rút ra các nhận xét về chiều dài các flow trong trung tâm

dữ liệu như sau:

- 80% flow nhỏ hơn 10KB.

- hầu hết các byte nằm trong 10% các luồng lớn.

Hình 2.13: CDF của kích thước flow

Chiều dài flow

Trang 40

Hình 2.14: CDF của chiều dài flow

Ta rút ra nhận xét về độ dài các flow trong trung tâm dữ liệu từ đồ thị hình 2.7: 80% các flow có chiều dài ngắn hơn 11s.

b) Mức độ packet

Để đánh giá ở mức độ packet, trước hết ta đánh giá đặc tính phụ thuộc thời gian của các packet trace Hình 2.14 là các packet tới theo thời gian tại 1 sniffer trong PRV2 và các packet tới được thể hiện theo các mẫu ON/OFF trong các khoảng thời gian 15 và 100ms, các mẫu lưu lượng ở 6 switch còn lại là tương

tự

Hình 2.15: Đặc tính ON/OFF: lưu lượng trong trung tâm dữ liệu theo thời

gian

Ngày đăng: 18/04/2015, 10:44

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Trung tâm dữ liệu - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 1.1 Trung tâm dữ liệu (Trang 9)
Hình 1.2: Topo của một trung tâm dữ liệu điển hình - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 1.2 Topo của một trung tâm dữ liệu điển hình (Trang 12)
Hình 1.3: Kiến trúc FatTree (k=4) - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 1.3 Kiến trúc FatTree (k=4) (Trang 13)
Hình 1.5: Định tuyến đơn đường 1.4.2 Định tuyến đa đường - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 1.5 Định tuyến đơn đường 1.4.2 Định tuyến đa đường (Trang 27)
Hình 1.6: Định tuyến ECMP - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 1.6 Định tuyến ECMP (Trang 28)
Hình 2.8 là đồ thị tỉ lệ giữa lưu lượng Intra-Rack và Extra-Rack. Từ đồ thị - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 2.8 là đồ thị tỉ lệ giữa lưu lượng Intra-Rack và Extra-Rack. Từ đồ thị (Trang 34)
Hình 2.8: Tỉ lệ lưu lượng Intra-Rack và Extra-Rack - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 2.8 Tỉ lệ lưu lượng Intra-Rack và Extra-Rack (Trang 35)
Hình 2.9: CDF của hiệu suất sử dụng link trong mỗi lớp - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 2.9 CDF của hiệu suất sử dụng link trong mỗi lớp (Trang 36)
Hình 2.11 là phân bố của số lượng active flow trong các gói 1s được đánh - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 2.11 là phân bố của số lượng active flow trong các gói 1s được đánh (Trang 38)
Hình 2.14: CDF của chiều dài flow - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 2.14 CDF của chiều dài flow (Trang 40)
Hình 2.15: Đặc tính ON/OFF: lưu lượng trong trung tâm dữ liệu theo thời gian - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 2.15 Đặc tính ON/OFF: lưu lượng trong trung tâm dữ liệu theo thời gian (Trang 40)
Hình 2.16: CDF của tiến trình tới của packet tại 3 switch của PRV2 - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 2.16 CDF của tiến trình tới của packet tại 3 switch của PRV2 (Trang 42)
Hình 3.17: Alpine 3804 Switch. - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 3.17 Alpine 3804 Switch (Trang 45)
Hình 3.19: Tốc độ trung bình của dữ liệu web nhận được trong các ngày từ 26/10/2011 31/10/2011. - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 3.19 Tốc độ trung bình của dữ liệu web nhận được trong các ngày từ 26/10/2011 31/10/2011 (Trang 47)
Hình 3.20: Tốc độ trung bình của dữ liệu web transmit của các ngày từ 26/10/2011 31/10/2011. - NGHIÊN CỨU MÔ HÌNH HOÁ LƯU LƯỢNG TẠI TRUNG TÂM DỮ LIỆU TỪ TRUNG TÂM NGUỒN DỮ LIỆU CỦA VIETTEL
Hình 3.20 Tốc độ trung bình của dữ liệu web transmit của các ngày từ 26/10/2011 31/10/2011 (Trang 48)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w