la MG DAU Han 80 phân tram lưn lượng của Internet là các hượng truy nhập truyền thông với các nội dung web.. Như vậy, ngoài những giải pháp tốn kém, như tăng băng thông của kênh truyền
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIEN THONG
PHAN VŨ HẢI VÂN
NGHIÊN CỨU CÁC GIAI PHAP TOI UU HE THON
WEB CACHING
Chuyên ngành: Truyền dữ liệu và Mạng máy tính
Mã số: 60.48.15
Người hướng dẫn khoa hoc: TS HO KHANH LAM
TOM TAT LUAN VAN THAC SY
HÀ NỘI - 2010
Trang 2la
MG DAU
Han 80 phân tram lưn lượng của Internet là các hượng truy nhập truyền thông với các nội dung web Neay nay, với sự phát triển cña các cảng nghệ truyền thông bằng rộng, công nghệ truyền thông đa phương tiện qua WWW cảng phát triển mạnh mẽ Sự cung cắp các dịch vn thông tin về kinh tá, văn hoá, xã hội ngày cảng phang phú trên mạng cũng như xu thể tích hợp các hệ thông thông tin trong các hoại động chính trị, kinh tế, xã hôi trên giao điện Wcb nói riêng, cũng như việc tối ưu hoá lưu lượng thông tin, han chế đến mite Wi da kha nang tac nghẽn trên mạng trở nên rất cân thiết Web trở thành một ứng dụng thành công bậc nhất trên Imernet Tuy nhiên sự nâng cấp cần thiết của các máy chủ và băng thông của mang Intornct +hông theo kịp sự phát triển với luật rũ đuật Zip0 của nữu cầu khách hàng trong vài năm qng, đo đó chất lượng các địch vụ yêu cầu băng thông rộng và thời gian thực được truy nhập
qua Wcb còn bị hạn chế, chưa đáp ứng như cầu càng cao của người sử dụng Như vậy, ngoài những giải pháp tốn kém, như tăng băng thông của kênh truyền dẫn ở các cấp mạng, tăng công, suất của các nủi ¡uạng tuy nhập, mạng địa phương, mạng trục Internet, các nhà cũng cấp dịch
vụ InlerncL đưa vào kiển trúc Wcb caching Đây là một cách để giảm độ trễ truy nhập các nội
dung Web, va tiét kiệm băng thông của các kênh truyền dẫn giữa các tằng mang của Internet Cách này đảm bảo lưu trữ các bản sao cùng các nội dung Web trong các bê nhớ đêm trên các
hệ thống máy chủ phân tản trên các mút truy nhập ở các ting mang,
Mục đích của luận văn này nhằm tìm hiển thể nào là Web caching, các kiểu kiến trúc
‘Web Caching, cic thuật toán thay thế cache và hiệu năng của nó ra sao Vận dụng những kiên thức đã nghiên ciu đỏ để đánh giá hệ thống WVeh Caching hiện tại dùng cho mang VNN.VN của VMPT, đưa ra giải pháp Web Caching mới tối tru hơn cho mạng VM.VN,
Trang 3Chương 1- KIIỮNG DẶC DIÊM CỦA INTERXET
111 LICH SU VA TOC DO PHAT TRIEN INTERNET
1.1, Lich sit Internet
Tiền thân của mạng Internet ngày nay là mạng ARPANET Thuật ngữ "Internet" xuất hiện lân
đầu vào khoảng năm 1974 Lúc đó mạng vẫn được goi la ARPANET Nam 1984, ARPANET
được chia ra thành hai phẩn: ARPANET và MILNET Đến năm 1980, ARPANET được đảnh giả
là mạng trụ cột của Internet, Giữa thập niên 1980 thành lập mạng liên kết các trung tâm máy tỉnh
Wn vei nhau gọi là NSFNET Sự hình thành mang xương sỏng cña NSFNET và những mạng vủng khác đá tao ra một môi trưởng thuận lợi cho sự phát triển cña Iternei Tới năm 1998, NSFNET th lại thành một mạng nghiên cửu côn Internet thì vẫn tiếp tue phát triển Các dịch vụ trên Internet không, ngừng phát triém tao ra cho nhân loại một thời kỳ mới: thỏi ky thương mại
điện tữ trên Internet
141.2 Tốc độ sử dụng Internet tại Việt Nam
'Việt Nam là nước có tốc độ tăng trưởng số người dùng intcrnct trong tốp 1Ô mước có tốc
độ tầng trưởng số người dùng nhanh nhất khu vực châu Á và cũng là một trong những nước cỏ tốc
độ tăng trưởng lớn so với thể giới (giai đoạn 2000-2009), tăng 10,662.2 %
1.1.3, Xu hướng tăng trưởng Internet Việt Nam
Bảng L2 Thông kê số liện phát triển Internet tại Việt Nam tỉnh đến 2009
1.2 NHỮNG GIẢI PHÁP TĂNG HIỆU SUÁT CỦA INTERNET
1.2.1 Tăng dung lượng truyền dẫn:
1à việc đần tr, nâng cấp dung lượng truyền dẫn Việc này sẽ triển khai đơn giân, nhanh nếu cỏ sẵn các hệ thông truyền dẫn ty nhiên nó số trổ nên phức tạp nếu hệ thẳng truyền dẫn.
Trang 44
không có sắn Ngoài ra chỉ phí thuê kênh quốc tế cũng rất đắt, việc vận hành khai thác các kênh truyền dẫn qnắc tả cũng không đon giản
1.2.2 Sữ dụng thiết bị quân lý băng thông:
Sử dụng thiết bị để ấn định mức đô băng thông ơn thể cho từng loại hinh địch vụ Việc sử
dụng thiết bị quân lý báng thông này có thể Ấn định được mức đô băng thông cụ thé cho ting loại dịch vụ tuy nhiên chỉ phi đầu tư hệ thông cũng không nhỏ Bên cạnh đỏ nếu băng thông không đà
lớn thì sẽ cả những dịch vụ bị ảnh hưởng đến chất lượng đo bị lấy băng thông để dành cho dich
vụ ưu tiên, như vậy khêng thôa rnăn được tối đa như câu người cữ dương,
1.2.3 Sử đụng các hệ thống Web Cachíng:
Khi sử dnng giải pháp này, chúng ta sẽ tiết kiêm được băng thông WAN do việc đưa thông tin
về gần với người sứ đụng, Đảm bảo và nẵng cao chất lượng truy nhập vì thời gian đáp ủng dịch
vụ nhanh Tuy nhiên nến hệ thẳng không đủ lón cũng cỏ thể gây đến việc thường xnyên bị quá tải,
có thể ảnh hướng tới hoạt động của dịch vụ Do đặc thù riêng của từng IŠP mà mỗi ISP có cách Tựa chạn giải pháp nâng cao chất hượng mạng riêng của minh Và Web caching là mật trong những giải pháp như vậy
Chương 2- KHÁI NIỆM WEB CACHING, CÁC KIỀK TRÚC VÀ THUẬT TOÁN THAY
THE CUA WEB CACHING
2.1 KHÁI NIỆM VẺ WEB CACTING
2.1.1 Dink nghia Web Caching
Web caching la vige lưu trữ bản sao của những tải liện web sao che gin voi người dùng,
cả về mặt chúc năng rong wob clicn! hoặc những máy chủ bộ đệm lưu trữ riêng biệt Cache (bộ đệm) được chia thành các loại: Browser cache (b6 dém tinh duyél), Proxy Cache (bộ đêm ủy nhiệm), Gateway cache (bộ đệm cổng vào)
2.1.3 Một số khái nigm Cache
@ «2.1.2.1 Browser cache
Browser cache hay con due goi 1 bộ đêm trình duyệt Những trình đuyệt như TE, Moziila,
Firefox bạn đhng để truy cập mạng, đến có sẵn một thư mục trong đó các nội dung đã được tải
về sẽ được luu để sử đụng trong tương lại
Trang 5© 2.1.2.2 Proxy Cache
Proxy cache 1a may chi caching trung gian nhằm giảm tải lưu lượng trên đường truyền
Web Proxy Cache (bộ đêm Web Proxy) làm việc cùng nguyên tắc với Browser Cache nhưng ở quy mô lớn hơn
2 Vi tri dat gateway cache
2.2 CAC LOAI KIEN TRUC WEB CACHING
2.2.1 Caching phn ting (Hierarchical cache)
Trang 62.2.2 Caching phan tan (Distributed cache)
Hình 2.4 Sơ đồ kiến trúc phân tin Web caching của mot ISP
2.2.3 Caching két hop (Hybrid scheme)
Hinh 2.5, So dé Hybrid Web Caching ctia mbt ISP
2.3 CAC THUAT TOAN CACHE
2.3.1 Thuat todn Least recently used (LRU)
“Thuật toán giả dinh 14 mét trang vita mdi được lẫy ra khôi cache sẽ tiếp tục được ty
nhập trong thời gian tới Để thay thế một nội ủnng trong cache, LRU sẽ xoá bó các trang không, được truy cập đến trong một khoảng thời gian dài nhất Chức nắng của L.RU được minh hoa trong,
Trang 7“a
1.RU là thuật trán eache được cữ dụng rộng rãi nhất, bởi vì LRU coi cae trang có chỉ phí
(eosf) và kích thước không đổi, mục đích cña L.RU là tấi ưn hoá tỷ lệ hit Un điểm của LRU là
khai thác được đặc tính cục bộ của truy nhập Nhược điểm của I.RU là bẻ qua sự thay adi va chi
phi và kich thước của trang, cñng như I.RU khẳng tính đến tân suất cũa các iray nhập
2.3.1 Thuật toán TLeast Freqnently Used with Dynamic Aging (LFU-DA)
LFU-DA là thuật toán dựa trên tân suất truy nhập, trong đỏ giả định chỉ phí và kích thước của trang là không đổi Trong thuật trản TU, quyết đỉnh loại bỏ nội dung một trang căn cứ vào
số lẫn lrny nhập đến trang đỏ Việc đếm số lần truy nhập của tất cả các trang trong cache được lưu
lại và trang cá số lần truy nhập đến nhỏ nhất sẽ bị loại bả Thuật toàn T.FU-DA được mở rộng từ
LEU bằng cách sử: đụng thêm thật toàn tuổi động ( Dynamic Aging ) Qna (hực nghiệm nguời ta
quan sát được tỷ lệ byte hít ( là tỳ lệ gíta tổng kích thước trang Web được yêu cân có nội dung nằm sẵn (rong cache voi ting kich thước trang Web được yên cân) của thuật taán I.FL:-DA là khả
cao,
2.2.3 Thuật toàn Greedy Dual Size (GDS)
“Thuật toán này đã tính đến sự thay đổi cña chỉ phi và kích thước của rang Việc loại bỏ trang khỏi hệ thẳng được căn cử trên tỷ lệ giữa kich thước và chỉ phủ của trang Cũng giống như thuật trán LEU-DA, GD8 gắn một giá trị H(p) với một trang p trong cache Khi một trang mới được lưu vào trong cache hoặc khi một trang đang nằm trong eache được truy nhập lại thi giá trị 1Í) được cập nhật lại: II(p}=CŒ)/S() Trong đỏ Sớp) là kích thước của trang, Cíp) là hàm chỉ
nhỉ thể hiên chi phi để Imm một trang p vào trong cache Trang p có giá trị
HpPHmin=nin,{Tf(Đ)} ( của tất cả các trang nằm trong cache) sẽ bị loại bó khôi cache khi cỏ
yêu cầu thay thể trang Tiếp theo đỏ L được đặt băng giả trị Híp) của Irang bị loại bỏ Tuy nhiên cũng giỏng như LRU, GDS không tỉnh đến tần suải truy nhập
3.1.4 Thuật toán Cost Efective (CE)
"Thuật toán CF được đưa ra để giàm toàn hộ chỉ phí lây được tải liệu Nhìn chung, những người
sử dụng Inlernet có thể được cha 3 nhỏm như sau: ()Khách hàng tìm kiếm thời gian đáp trả ngắn
hơn đi)Khách hàng tìm cách tối đa hỏa sử dụng băng thêng (vi dụ mội Intemel Service Provider,
ISP) Vi vay, c6 hai mó hình chỉ phi để tối mu hóa proxy cache cho hai nhóm mục tiêu sử đụng Thứ nhất, một mô hình độ trễ mà có thể đo độ trễ lãi ví
mô hình lưu lượng truy cập mã có thế đo được lưu lượng mang
Chúng lôi xác định tý lệ giảm chủ phí (CRE) như sau:
tủa người dùng cuối, và thứ hai là một
Trang 8LAX Ci bế ấu sêu cần ï là Hồi à
Cc:
la chi phí lấy được đổi tượng ¡
Chủng tôi xác định chí phí như là độ trể tải về quan sát được cúa người dùng trong mô
hình đô trễ, và là sở lưn lượng mạng được lạo ra trong mô hình lưu lượng Trong CE, giá trị lợi
ich (Benefit Value-BV) được gán cho mỗi đổi tượng, biểu diễn tầm quan trọng cña nỏ trong
cache Khi cache đẩy, các đối tượng với BV thấp nhất bị thay thế BV bao gồm 3 phan: chi phi,
xác suất tái truy cập (P,) và tuổi đồng
suất tải truy cập,
B
ý (CosUSizo)*P, +Age Cost: Chi phí lây được đổi tượng từ mày chủ
T, Xác suất tải tuy cập:
Pr là xác suất có điều kiện của việc tái truy cập 1 đối trợng đã được truy cap flan
Dị Số tại liệu được truy cập ít nhất la £ lân
œ Giá trị đặc trưng của luật phân bổ Zip£'
Ð là hằng trạng số
Sizc _ Kích thước của đổi tượng được yêu cầu
Age Tudi của cache, được xác định là BV bé nhất cúa tắt cả các đối trong
'Nếu một đối lượng đã được đọc [lần , ước tính xác suất tái truy cập là Tr — Da / Dr, Dị 1à số tài Tiện được truy cập it nhất f tản Tỷ lệ truy cập trung, bình của mật đái tượng cá thể được
trớc tỉnh bởi kích thước cña nó Cho I+ là tỷ lệ truy cập trúng, bình cho một adi trong va S là kích
thước cia nd R co thé duge wée tinh 1A R-C/S*, noi C va b là hai hãng, Tỷ lệ truy cậu trung
Trang 9R là độ thông dung của trang, , K và ø.là 2 tham số đậc lập
TTuôi caehc là thời gian truy cập gần đây nhất Khi một đối tượng được đưa đến cache, BV của nó
là chỉ phí lấy được đổi tượng cộng với H (ban đần H— 0) Trong trường hợp cache lút, H được đặt bang thời gian hiện nay
Chương 3- PIHÄN TÍCH HIỆU NẴNG CỦA CÁC KIÊN TRÚC WEB CACHING VÀ CÁC
THUẬT TOÁN THAY THÉ 3.1.PHÂN TÍCH, SƠ SÀNH HIỆU NĂNG KIÊN TRÚC WEB CACIING
3.1.1 Kiến trúc cache phân tằng và phân tan
Kiến trắc phân tầng có thời gian kết nổi nhỏ hơn kiến trúc phân tản Bởi vì trong kiên trắc hân tầng các bản sao của một trang duoc lưu trữ môi cách đư thửa tại các hệ thống cache ở các
cẤp đô mạng khảc nhan dẫn tới giảm được thời gian kết nấi Ngược lại kiến trúc phân tán có thời gia truyền nội dung cửa trang Web tháp hơn kiến trúc phản tầng, bởi vi trong kiến trúc phân tân Imu lrạng Web được lưu chuyển trên các tằng mạng phía dưới và ít bị nghẽn hơn
Hinh 3.1 M6 hinh phan edp cia ISP
Chúng ta xây dựng topolagy của mạng, dưới dạng cấu trúc cây đầy đũ O-ary, hình dưới
“Hình 3.2 A6 hhnh phân cây
Trang 1010
«— O đại điện cho độ mở (số nhánh) của mỗi nút trong cầu trúc cây
« _ Hà số đường kết nối mạng giữa nút mốc cha mạng quắc gia với nủt gốc của mang cấp vùng H cũng đại diện cho số đường kết nối giữa nút gắc của mạng cấp vùng với nút: gốc của mạng cấp khu vực
©_ zlá số kết nỗi giữa máy chủ gắc và núi gốc
© Hà sế cấp của cây (0 I< 2H+z) trong đó:
> 10 làmức mạng của các bộ đệm cơ quan
1 _ H là mức mạng của các bệ đệm vùng
1— 2H là mức mạng của các bộ đêm quốc gia
vy 1 - 2H +z may chủ gốc Giả định băng thông là đồng nhất với mỗi ISP (mỗi kél ndi gitta cac ISP có cùng tốc độ truyền dẫn (transmission rate))
«Ẳ —C: Cz, Cụ là tắc độ truyền dẫn (transmizsion rate) của các kết nối ở mạng cơ qnan, vùng,
quốc gia
«_ C:tÿ lê nghẽn nắt cổ chai trên đường truyền đẫn quốc tế
Kiến trúc phân tầng
Hệ thống cache thường được đặt tại điểm truy nhập giữa bai mạng khác nhau đã giảm chỉ
vi truyện trang qua một mạng mới Tại một nước liủ chỉ có một mạng quốc gia và một hệ thông,
cacho quốc gia Vậy sẽ có OŠ mạng vùng và mỗi mạng sẽ có một hệ thống cachc cấp ving Co
O* mạng khu vực và mỗi mạng sẽ cỏ một hệ thông cachc cấp kỈru vực
Hệ thống cachc được đặt ở độ cao Ø của cầu trúc cây tương ứng cấp độ L trong kiến trúc phân tầng, độ cao H của cấu trúc cây lương ứng cấp độ 2 trong kiên trúc phân tầng, độ cao 2H của cầu trúc cây tương ứng cấp độ 3 trong kiến trúc phân tẳng Cache được nỗi tới các [SP qua các
Xênh truy nhập Chúng ta giả sử rắng dung lượng kênh truy nhập tại mỗi cấp độ bing dung lượng +ênh trung kế của mạng tại cấp đô đỏ nghĩa là Cụ Cx,Cx và C cho từng cấp độ tương ứng Tỷ lệ hit tai hé théng cache của các cấp khu vực, vùng, quốc gia được đại điện bởi các gid tri: hit, hìh,, hhityy (hit: số phần trăm yêu cầu duge dap ứng ớ mức bộ đậm),
Kiên trúc phân tản
Cache chỉ được đặt tại cấp khu vục và sẽ khổng cỏ bản sao trung gian của các trang Web tại các cấp mạng khác Để chia sẻ các bản sao giba các hệ thống cache khu vực, hệ thắng cache +ại cắp mạng trung gian sẽ lưu giữ dữ liệu mmcla-dala nó chứa đựng Ihông lin về nội dung đuợc lưu trong các hệ thông cache khu vục Các cache khu vục trao đổi định ký lượng thông lin mela-data