Kiến trúc web caching phân tích giải pháp web caching của ISP ở cămpuchia

THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT Cache agent Hệ thống cache tại một nút mạng Cache hit Là tiến trình truy nhập web và lấy nội dung web có sẵn trên cache Cache miss Là tiến trình truy nhập we

Trang 1

Bộ giáo dục và đào tạo trường đại học bách khoa Hà Nội

TAN KOSAL

Kiến trúc web caching – phân tích giảI

pháp web caching của isp

Trang 2

trường đại học bách khoa Hà Nội

Chuyên ngành: công nghệ thông tin

Luận văn thạc sĩ công nghệ thông tin

Trang 3

Người hướng dẫn:

TS Hồ Khánh Lâm

Hà Nội - 2005

Trang 4

THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT

Cache agent Hệ thống cache tại một nút mạng

Cache hit Là tiến trình truy nhập web và lấy nội dung web có sẵn

trên cache Cache miss Là tiến trình truy nhập web và nội dung web không có

sẵn trên cache, phải lấy từ máy chủ web Cache proxy Hệ thống cache được đấu nối trên mạng theo cơ chế

proxy CARP Cache Array Routing protocol - Thủ tục tìm kiếm nội

dung trang web dựa trên cơ chế hàm băm (Hash function) Client Là phần cứng hoặc phần mềm xét trong mối quan hệ

tương tác với hệ thống máy chủ (Server)

DNS Domain Name System - Hệ thống tên miền

FTP File Transfer Protocol – Giao thức truyền file

Gate-way Là cửa ngõ để giao tiếp với các mạng khác

GDS Greedy Dual Size - Thuật toán thay thể nội dung cache có

tính đến kích thước và chi phí của trang GDS(1) GD*(1) Là thuật toán GDS và GD* với chi phí không đổi

GDS(packets) Là thuật toán GDS và GD* với chi phí tính theo gói dữ

liệu = 2 GD*(packets) + Kích thước dữ liệu/536

Hop Một nút trong topology của mạng thường được sử dụng

với các thủ tục định tuyến RIP Hot Thiết bị trên mạng nói chung có địa chỉ IP ví dụ PC,

Server router…

HTML HyperText Markup language – Ngôn ngữ đánh dấu siêu

văn bản HTTP HyperText Transfer Protocol – Giao thức truyền dẫn siêu

văn bản ICP Internet Cache protocol - Thủ tục tìm kiếm và lấy nội

dung trang Web

ISP Internet Service Provider - Nhà cung cấp dịch vụ truy

nhập Internet LASM Large Scale Active Middleware - Bộ đệm trung gian quy

mô lớn

Trang 5

LFU-DA Least Frequently Used with Dynamic Aging-Thuật toán

thay thế nội dung cache dựa trên tần suất truy nhập LRU Least recently used - Thuật toán thay thể nội dung cache

dựa trên tính tương quan theo thời gian của truy nhập Media Loại dữ liệu ví dụ tiếng nói, hình ảnh, văn bản, phìm… Mesh Mô tả mạng mà mỗi nút mạng đều có đương kết nối đến

các nút mạng còn lại MRU Most recently used - Vị trí lưu các trang mới được sử

dụng nhiều nhất trong ngăn xếp LRU MTTR Mean time to request - Thời gian trung bình tính tới lần

truy nhập tiếp theo Multimedia Loại dữ liệu kết hợp hình ảnh và âm thanh

Pre-fetch Là tiến trình đi lấy trược nội dung trang web được dự báo

sẽ được truy nhập trong thời gian tới Proxy Cơ chế đấu nối của một máy chủ trên mạng, máy chủ sẽ

đại diễn cho toàn bộ thuê bao hay máy trạm mà nó làm proxy để thực hiện các giao dịch mạng

RTT Route trip time - Độ trễ gói toàn trình

SLRU Segmented least recently used - Thuật toán thay thể nội

dung cache dựa trên tính tương quan theo thời gian của truy nhập

TCP Transmission Control Protocol - Giao thức điều khiển

truyền dẫn

TTR Time to request - Thời gian tới lần truy nhập tiếp theo

Tỷ lệ byte hit Tỷ lệ giữa tổng dung lượng của các trang web được truy

nhập mà nội dung của chúng đã được lưu sẵn trong cache proxy trên tổng số dung lượng của các trang web được truy nhập

Tỷ lệ hit Tỷ lệ giữa số truy nhập web mà nội dung được yêu cầu

đã được lưu sẵn trong cache proxy trên tổng số truy nhập UDP User Datagram Protocol – Giao thức truyền gói tin

WCCP Web cache coordination protocol: thủ tục cache để phối

hợp các bộ định tuyến, các hệ thống cache nhằm khai thác hiệu quả tài nguyên mạng và tại nguyên cache

Trang 6

Hình 2.4 : Mô hình phân cấp của ISP ( Network topology) 31

Hình 2.5: Kiểu cây, cách đạt cache (Tree mode, showing cache

lacement.)

32

Hình 2.6 : Thời gian kết nối E[ ]Tc với mật độ trang λtot, ∆ = 24h,d= 15 sec 40

Hình 2.7 : Lưu lượng mạng phát sinh bởi kiến trúc phân tầng và kiến

trúc phân tán tại mỗi cấp độ cây

Trang 7

Hình 2.11 : Thời gian kết nối phụ thuộc vào số lượng cache công tác

tại mỗi cấp mạng trong kiến trúc hỗn hợp

46

Hình 2.12 : Thời gian kết nối trong kiến trúc hỗn hợp với số cache

cộng tác tối ưu kc

47

Hình 2.13 : Thời gian truyền trung bình phụ thuộc vào số lượng

cachecộng tác trong mô hình hỗn hợp với ( ρ = 0 3 ) và

) 8 0 ( ρ = , S = 15KB

8

= ρ

50

Hình 4.1: Lược đồ thay thế nội dung cache của thuật toán LRU 75

Hình 4.2: Lược đồ thay thể nội dung cache của thuật toán SLRU 77

Hình 5.1: Miều tả chung những Cache Farm trong một mạng ISP 95

Trang 8

Hình 5.3: Cơ sở hạ tầng mạng Internet ở Cămpuchia hiện nay 98

Hình 5.4 : Sơ đồ mạng lưới Web Caching của mạng ISP NiDa 102

Hình 6.2 : Cấu hình trình duyệt Netscape cho Web Caching 113

Hình 6.3 : Cấu hình trình duyệt Netscape tự động cho Web caching 114

Hình 6.4: Cấu hình trình duyệt Mozilla cho Web caching 115

DANH MỤC BẢNG

Trang 9

TÀI LIỆU THAM KHẢO

1 Mạng máy tính và các hệ thống mở - Nguyễn Thúc Hải

2 Công nghệ mạng máy tính – Nhà xuất bản Bưu Điện,2001

3 Các bài viết về Internet - TS Hồ Khánh Lâm - Tạp chí Bưu chính viễn thông

4 Công nghệ Internet Cache ứng dụng.Vũ Duy Lợi, Trần Trọng Minh

5 Analisis of Web Caching Architecture:Hierarchical and Distributed Caching – Pablo Rodriguez, Christian Spanner, and Ernst Ư.Biersack, Member IEEE-Tạp chí IEEE/ACM Transactions on Network, Vol 9,No 4,August 2001

6 Algorithms Of The Internet, Organized by Christian chindelhauer Elaboration on Topic 03 Web Caching by Stefan Luecking (6014415) stl(at)upb.de University of Paderborn, Date: August, 4th, 2004

7 Internet Cache Protocol (ICP), version 2 , D Wessels, K Claffy, National Laboratory for Applied Network Research/UCSD September 1997

8 Implementation and comparison of distributed caching schemes, S.Selvakumar, P.Prabhakar Department of Computer Science and Engineering, Regional Engeneering College, Tirachirappalli, Tamil Nadu, India Extract in Computer and Communications Magazine, Received 14 March 2000, Revised 24 July 2000, Accepted 27 July 2000

9 Web Distribution Systems : Caching and Replication,

Trang 10

I-BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

BẢN NHẬN XÉT LUẬN VĂN CAO HỌC

Họ và tên học viên : Tan kosal Chuyên ngành : Công Nghệ Thông Tin Khoá : 2003 – 2005 Người hướng dẫn : TS Hồ Khánh Lâm Nội dung:” Kiến trúc Web Caching – Phân tích giải pháp Web Caching của ISP ở Cămpuchia” Nhận xét của người hướng dẫn :

Hà nội, ngày tháng năm 2005 Người hướng dẫn

TS Hồ Khánh Lâm

Trang 11

MỤC LỤC

LỜI NÓI ĐẦU 1

CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ WEB CACHING 1.1 VÌ SAO PHẢI DÙNG WEB CACHING ? 3

1.1.1 Sự phát triển của Internet 3

1.1.2 Các giải pháp 3

1.2 GIỚI THIỆU VỀ WEB CACHING 5

1.2.1 Một số khái niệm 6

1.2.2 Một số mô hình hệ thống tiêu biểu 12

1.3 QUAN HỆ GIỮA MÁY TRẠM VÀ MÁY CHỦ DỮ LIỆU 22

1.3.1 Định hướng lại địa chỉ URL 22

1.3.2 Định hướng lại tên miền 22

1.3.3 Quan hệ giữa các máy chủ 23

1.4 KẾT LUẬN 24

CHƯƠNG 2: SO SÁNH PHÂN TÍCH CÁC MÔ HÌNH KIẾN TRÚC HỆ THỐNG WEB CACHING 2.1 GIỚI THIỆU CÁC KIẾN TRÚC CACHE 25

2.1.1 Kiến trúc cache phân tầng – hierarchical Cache 25

2.1.2 Kiến trúc cache phân tán - Distributed Cache 27

2.1.3 Kiến trúc cache hỗn hợp – Hybit cache 28

2.2 ĐÁNH GIÁ HIỆU NĂNG CỦA KIẾN TRÚC PHÂN TẦNG VÀ PHÂN TÁN 30

2.2.1 Mô hình mạng 31

2.2.2 Mô hình trang 33

2.2.3 Kiến trúc phân tầng 34

2.2.4 Kiến trúc phân tán 34

2.2.5 Phân tích độ trễ 35

Trang 12

2.2.6 Thời gian kết nối 39

2.3 ĐÁNH GÍA HIỆU NĂNG CỦA KIẾN TRÚC HỖN HỢP 45

2.3.1 Thời gian kết nối 45

2.3.2 Thời gian truyền 47

2.3.3 Thời gian trễ 49

2.4 KẾT LUẬN 51

CHƯƠNG 3 : CÁC GIAO THỨC CHO WEB CACHING 3.1 ĐẶT VẤN ĐỀ 52

3.2 CÁC GIAO THỨC CỦA WEB CACHING 53

3.2.1 Giao thức ICP (Internet Cache Protocol) 53

3.2.2 Giao thức HTCP (HyperText Cache Protocol) 54

3.2.3 Giao thức CARP 54

3.2.4 Cache Digest 55

3.2.5 Các giao thức dựa trên Multicast 55

3.2.6 Proxy lưu trữ đảo ngược 57

3.2.7 WCCP (Web Cache Control Protocol ) 59

3.3 GIAO THỨC ICPv2 59

2.3.1 Khái niệm 59

2.3.2 Định dạng tin nhắn ICPv2 61

2.3.3 ICP_OPCODE 63

2.3.4 ICP OPTION FLAG ( Cờ lựa chọn ICPv2) 68

CHƯƠNG 4: THUẬT TOÁN CỦA WEB CACHING 4.1 TỔNG QUÁT VỀ CÁC THUẬT TOÁN CACHING 72

4.2 SỰ CẦN THIẾT CỦA WEB CACHING 73

4.3 MỘT SỐ THUẬT TOÁN CỦA WEB CACHING 75

4.3.1 Thuật toán Least Recently Used LRU 75

4.3.2.Thuật toán Segmented Least Recently Used 76

4.3.3.Thuật toán Least Frequently Used With Dynamic Aging 78

Trang 13

4.3.5 Thuật toán GreedyDual-Size 80

4.3.6 THUẬT TOÁN GREEDY DUAL *(GD*) 88

4.4 KẾT LUẬN 90

CHƯƠNG 5: GIẢI PHÁP WEB CACHING CỦA MỘT ISP Ở CĂMPUCHIA 5.1 CISCO CACHE ENGINE 92

5.1.1 Giới thiệu Cisco Cache Engine 92

5.1.2 Những đặc điểm của Cache Engine 93

5.1.3 Tìm hiểu phần cứng Cache Engine 94

5.1.4 Ví dụ cấu hình của ISP 95

5.2 MẠNG INTERNET TẠI CĂMPUCHIA 97

5.2.1 Khảo sát hiện trạng mạng viễn thông Cămpuchia 97

5.2.2 Đánh giá Internet của Cămpuchia 101

5.3 KHẢO SÁT HỆ THỐNG WEB CACHING CỦA MẠNG ISP NiDa 102 5.3.1 Nhận xét chung của NiDa 103

5.3.2 Đề xuất giải pháp cho ISP NiDa 105

5.4 KẾT LUẬN 106

CHƯƠNG 6: ÁP DỤNG SQUID CHO WEB CACHING 6.1 CÔNG CỤ PHẦN MỀM SQUID CHO WEB CACHING 108

6.1.1 Squid là gì ? 108

6.1.2 Vì sao phải chọn Squdi ? 109

6.1.3 Đặc điểm của Squid 109

6.1.4 Mô hình thử nghiệm của Squid 110

6.2 PHƯƠNG PHÁP CÀI ĐẶT VÀ CHẠY SQUID 110

6.2.1 Cấu hình để chạy được phần mềm Squid 110

6.2.2 Cài đặt Squid 111

6.2.3 Chạy phần mềm Squid 111

6.2.4 Quản hệ giữa browsers và Squid 112

Trang 14

L ỜI NÓI ĐẦU

Ngày nay internet đã trở thành công nghệ tiêu chuẩn, kết nối mở các

hệ thống tính toán và các mạng máy tính không đồng nhất Việc phát triển bùng nổ các mạng Internet/Intranet, việc cung cấp các dịch vụ thông tin về kinh tế, văn hoá, xã hội ngày càng phong phú trên mạng cũng như xu thế tích hợp các hệ thống thông tin trong các hoạt động chính trị, kinh tế, xã

hội trên giao diện web nói riêng, cũng như việc tối ưu hóa lưu lượng số

liệu, hạn chế đến mức tối đa khả năng tắc nghẽn số liệu trao đổi trên mạng trên nên rất cần thiết

Công nghệ lưu trữ và cung cấp nội dung trang web tại nơi gần người

sử dụng gọi là công nghệ Internet Web Caching Đây là một trong những

giải pháp công nghệ góp phần giải quyết vấn đề nghẽn, nâng cao tốc độ truy cập Internet, tối ưu được băng thông Giải pháp web caching được đa số các nhà cung cấp dịch vụ Internet (ISP) sử dụng để nâng cao chất lượng cung

cấp dịch vụ truy cập Internet và tiết kiệm chi phí đầu tư cho cơ sở hạ tầng

mạng, công suất thiết bị Kỹ thuật Web caching luôn mang tính thời sự và

cần được liên tục nâng cấp để đáp ứng nhu cầu gia tăng với tốc độ chóng mặt của số lượng người dùng Internet trên toàn cầu và chi phí cho băng thông của hạ tầng mạng Internet

Đó là lý do vì sao chọn nghiên cứu về web caching của luận văn

Bản luận văn này được trình bày thành 6 chương trong khoảng

… (120) A4

Chương I: Giới thiệu chung về Web Caching

Chương II: So sánh phân tích các mô hình kiến trúc hệ thống Web Caching

Trang 15

Chương IV: Thuật toán của Web Caching

Chương V: Giải pháp Web Caching của một ISP ở Cămpuchia

Chương VI: Áp dụng Squid cho Web Caching

Trong quá trình thực hiện đề tài này tôi đã nhận được sự giúp đỡ tận tình của thầy hướng dẫn TS H ồ Khánh Lâm đã nhiệt tình giúp đỡ và hướng

dẫn tôi hoàn thành đồ án tốt nghiệp này

Tôi xin gửi lời cảm ơn chân thành tới các thầy cô giáo trong khoa cộng nghệ thông tin của trường đại học Bách khoa Hà Nội

Một lần nữa tôi xin cảm ơn tất cả những ai sẽ đọc và góp ý cho luận

văn này

Trang 16

CH ƯƠNG 1

GI ỚI THIỆU CHUNG VỀ WEB CACHING

1.1 VÌ SAO PH ẢI DÙNG WEB CACHING ?

1.1.1 S ự phát triển của Internet

Trong những năm gần đây, với sự phát triển nhanh chóng, Internet đã

trở thành nguồn cung cấp thông tin khổng lồ và phong phú, đặc biệt là trên các web sites Số lượng các trang web ước tính đã hơn 3 tỷ và gần 80% số

lượng người sử dụng Internet là truy cập lấy nội dung các trang web Điều này làm cho các hệ thống máy chủ dịch vụ web và các kênh truyền thông trở nên nhanh chóng bị quá tải và nghẽn Chi phí lớn cho đầu tư tăng dung

lượng, công suất cho các máy chủ dịch vụ và truyền dẫn không thể đáp ứng

kịp thời tốc độ phát triển của nhu cầu sử dụng Internet Các nhà cung cấp dịch vụ Internet (ISP) một mặt phải đáp ứng nhu cầu sử dụng Internet của số lượng lớn những người sử dụng, một mặt phải đảm bảo chất lượng cung cấp

dịch vụ (giảm tắc nghẽn, tăng tốc độ truy cập thông tin) với sự tiết kiệm chi phí về thuê kênh viễn thông Đó là vấn đề cần phải có giải pháp để thỏa mãn

sự phát triển của Internet

1.1.2 Các gi ải pháp

Các giải pháp đều phải khắc phục các nhược điểm của Internet Services, đó là: giảm nghẽn băng thông ở các cấp mạng: mạng trục quốc gia (National network); các mạng vùng (Regional networks); và các mạng khu vực (Institutional networks)

Trang 17

Giải pháp phổ biến nhất là nâng cấp các nguồn tài nguyên mạng như:

sử dụng các server mạnh, truyền dẫn băng thông rộng, tối ưu cấu trúc mạng

về định tuyến, phân tải, v.v… Tuy nhiên, cách tiếp cận trên phải chịu chi phí lớn về mặt kinh tế, nhưng tốc độ đầu tư và chi phí lớn không thể đáp ứng kịp

thời được tốc độ tăng của yêu cầu truy cập Internet

Vì hơn khoảng 70-80% các truy cập Internet là tham chiếu lấy các nội dung của các Web Sites Do vậy phần lớn lưu lượng chiếm tải của các hệ thống cung cấp dịch vụ và các kênh truyền dẫn là các giao dịch của WWW

giữa người sử dụng (Clients) và các Web Servers Vậy thì nếu sử dụng giải pháp bộ nhớ đệm tốc độ cao (cache) để lưu trữ các nội dung các trang web

phổ biến, thông dụng được nhiều người sử dụng tham chiếu đến thì cũng chứng tỏ được những ưu điểm của nó:

 Bộ đệm làm giảm bớt nhu cầu chiếm giữ đường truyền (khoảng 35%),

giảm thông lượng giữa các máy trạm (clients) và máy chủ thông tin (content servers)

 Bộ đệm cải thiện chất lượng dịch vụ (QoS) thông qua việc phân phối thông tin với băng thông rộng tốc độ cao hơn, giảm thời gian trễ và chờ đợi ở phía người dùng đầu cuối (Client)

Khi người sử dụng tham chiếu một nội dung của trang web nào đó lần đầu bằng trình duyệt Web, trình duyệt Web sẽ lưu đệm trang Web đó tại máy tính của người sử dụng (local web caching) Như vậy, lần tham chiếu trang Web đó tiếp theo thì nội dung trang Web đó được lấy ngay tại máy tính của

người sử dụng mà không cần phải chuyển yêu cầu của trình duyệt Web lên trên mạng cấp trên hoặc đến tận máy chủ gốc (Origin server) của trang Web

để tìm kiếm Do đó giảm được lưu lượng sử dụng băng thông ở mạng cấp trên và sự trễ đối với người dùng Tính năng Web caching cục bộ này trên

Trang 18

duyệt Web của Microsoft, Netscape hay Mozilla của linux Redhat với trường History (microsoft) Tuy nhiên trong môi trường rộng lớn hơn, như trong mạng máy tính cục bộ (LAN) có nhiều máy tính kết nối thì “local cache” cho web được mở rộng thành một “share cache” chia sẻ cho tất cả người dùng trong một mạng cục bộ Khi số lượng của người dùng kết nối vào một bộ đệm đơn (single cache) nhỏ, còn số lượng thông tin trên Web nhiều, thì các tính năng của cache bị giảm sút Tỷ lệ truy nhập trúng trang Web (hit) tại cache của mạng cục bộ của một cơ quan (các yêu cầu của những người sử

dụng có thể được phục vụ bởi cache có lưu bản sao trang Web) thường trong khoảng 30% đến 50%

Do vậy Web Caching là một giải pháp hiệu quả nhất và đỡ tốn kém

chi phí nhất để nâng cao chất lượng dịch vụ đáp ứng được phần lớn các nhu cầu của người sử dụng truy nhập lấy nội dung thông tin trên Web

1.2 GI ỚI THIỆU VỀ WEB CACHING

Bộ nhớ đệm là một vùng lưu trữ tạm các thông tin được sao chép từ thông tin gốc Có hàng triệu trang Web trên mạng internet, điều này đồng nghĩa với việc có một khối lượng thông tin khổng lồ, và hàng triệu các đối tượng cần xử lý khác nhau Trong quá trình khai thác thông tin, rất nhiều yêu

cầu người dùng tới cùng một đối tượng Một ví dụ điển hình là logo của Yahoo trên trang Web của công ty này Hình logo này xuất hiện tại tất cả các trang Web thông tin Mỗi trang lại được truy cập bởi nhiều người dùng và nhiều lần trong ngày Bộ đệm cho Web là một hệ thống máy tính chuyên

dụng quản lý và lưu trữ các đối tượng khi nó truy xuất đối tượng từ máy chủ Với các yêu cầu đến đối tượng, bộ đệm sẽ xử lý và truyền tải đối tượng từ vùng nhớ của nó thay vì gửi yêu cầu đến Server lưu trữ đối tượng gốc Mọi

Trang 19

một khoảng thời gian cho mỗi đối tượng Khi qua khoảng thời gian này, bộ đệm sẽ tự động lấy lại nội dung của đối tượng được lưu trữ trên máy chủ gốc Điều này đảm bảo luôn phản ánh đúng nội dung của đối tượng đối với người dùng Càng có nhiều yêu cầu truy xuất chung tới một đối tượng, phương pháp này càng thể hiện được tính hiệu quả của nó

1.2.1 M ột số khái niệm

Client

Client là bất kỳ ứng dụng nào tạo nên sự kết nối sử dụng cho mục đích

gửi yêu cầu

Web Cache

Cache Internet Cache

Hình 1.1 : Kiến trúc cơ bản của một bộ đệm cho Web

Trang 20

Web Server

Về mặt kỹ thuật, Web server gồm có phần mềm và phần cứng để xây

dựng Web server của mình thì phải thiết đặt phầm mềm đặc biệt tới máy tính đặc biệt hoặc mạng LAN và hệ điều hành (hoặc Network operating system – NOS) mà đang chạy Web server có thể thực hiện một số nhiệm vụ như sau:

 Hoạt động việc đăng ký

 Xác nhận những người sử dụng

 Ghi địa chỉ Internet, thời gian và yêu cầu mà làm cho mỗi kết nối

 Bảo vệ tập tin

 Truyền các yêu cầu dữ liệu mà cả browser lẫn server có thể truy

cập trực tiếp tới các ứng dụng gọi là gateway

HTTP

FPT

Gopher

Online Browser Addressing Schemer

common Protocols Format Negotiation

Hình 1.2: Mô hình Client/Server

Trang 21

 Để giải thích mã HTML trong tài liệu nó nhận từ máy chủ và đưa

ra tài liệu đó tới người sử dụng với nhiều định dạng browser

Khi nhập URL khác, quá trình sẽ bắt đầu lại khắp nơi Browser sử dụng URL để yêu cầu tài liệu rồi cho đợi máy chủ trả lại tài liệu

Hình 1.3: Quan hệ giữa Web browser và Internet Server

Trang 22

Là một hệ thống trung gian đóng vai trò vừa là server vừa là client với

mục đích đưa ra yêu cầu đến Origin Server, thay thế các client xuất phát yêu cầu Những proxy thông thường nằm ở điểm truy cập mạng và có hệ thống caching để lưu trữ những nội dung trang web thường xuyên được truy nhập đến Các client thông quá trình duyệt web gửi yêu cầu nội dung trang web đến proxy Nếu nội dung trang web đã được cache trong proxy thì proxy có thể đáp ứng ngay cho client Nếu nội dung trang web yêu cầu không có trong proxy thì proxy sẽ chuyển tiếp yêu cầu của client đến hệ thống web caching cung cấp hay cấp trên hoặc đến thẳng Origin server Như vậy, trong trường

Clients

Clients Internet

Proxy

Hình 1.4: mô hình proxy

Trang 23

xuất phát yêu cầu Khi nhận thông tin từ server nguồn, thì proxy sẽ chuyển

tiếp nội dung web đến client, đồng thời lưu trữ nội dung trang web tại cache của mình

Reverse Proxy

Proxy ngược là một proxy nằm phía Origin server và lưu trữ những

nội dung thường xuyên được các Client yêu cầu Các proxy ngược thường được dùng như những cổng phía trước các Origin server sau firewall của mạng và đóng vai trò hỗ trợ giảm tải cho các Origin server

Neighbor/sibling Web cache server

Caching Server tham gia trong mạng lưới caching (caching mesh),

gửi/nhận những yêu cầu những Cache Server khác

Cluster

Là một tập hợp các thiết bị nối cặp với nhau cùng hoạt động để chia

sẻ tải

Local caching proxy

Là proxy cục bộ mà người sử dụng kết nối trực tiếp

Intermediate caching proxy

Theo các nhà cung cấp nội dung thì caching proxy trung gian là tất cả các hệ thống cache có trong caching mesh và không phải là các local caching proxy của người sử dụng

Web Proxy Server

Web proxy server là một máy chủ HTTP chuyên dụng Proxy server dùng để cho phép các client bên trong (internal clients) truy cập đến internet

từ sau một firewall bất kỳ ai ở đằng sau firewall có thể có đủ Web truy nhập qua máy chủ firewall (Firewall host) với nội lực nhỏ và không cần dàn xếp bảo mật

Trang 24

Proxy server lắng nghe những yêu cầu từ các clients bên trong firewall

và chuyển các yêu cầu đến máy chủ (remote internet servers) bên ngoài firewall Proxy server đáp ứng đọc từ máy chủ bên ngoài và sau đó gửi chúng cho các Client bên trong Đa số Proxy server được thực hiện trên một

cơ sở phương pháp truy nhập Proxy server có thể cho phép hoặc không cho phép yêu cầu bên trong tuỳ theo giao thức của yêu cầu ví dụ: proxy server

có thể cho phép gọi tới FTP Server khi không cho phép gọi tới HTTP server

Khi nào cần sử dụng Web Proxy Server ?

Có thể dùng Web proxy server như sau:

 Cho phép và hạn chế Client truy cập đến Internet dựa trên địa chỉ

IP của Client

 Tài liệu chaching cho tài liệu bên trong

 Có sự lựa chọn điều kiện để truy cập tới internet và Subnet dựa trên URL

 Cung cấp sự truy cập Internet cho các công ty sử dụng private network

 Việc chuyển đổi dữ liệu dạng HTML vì vậy nó đọc được do browser

On a Corporate Firewall

Trang 25

Cache Server

Là những server không phục vụ như bản thân một proxy mà chúng phục vụ các yêu cầu được tạo ra từ các local caching proxy và các caching proxy ở các cấp mạng trên

Caching mesh

Là một tập hợp các proxy cache hoạt động phối hợp (co-operating proxy caches) hoặc các caching servers hoặc các clusters kết hợp từng cặp chặt chẽ và hoạt động độc lập nhưng chia sẻ nội dung giữa chúng với nhau

bằng cách sử dụng các giao thức quan hệ cache bên trong (Inter Cache Communincation Protocols)

Transparent Proxy

Một proxy trong suốt là một proxy loại bỏ những thứ cần thiết cho cấu hình trình duyệt khi người sử dụng truy nhập một proxy

Local Web Cache Server

Caching Server chạy trên cùng LAN như một người sử dụng

1.2.2.M ột số mô hình hệ thông tiêu biểu

1.2.2.1 Mô hình t ổng quát (xem hình 1.6)

Hình 1.6 mô tả về thành phần tạo ra Web Caching và hệ thống tiêu

biểu giữa các thành phần

Trang 26

1.2.2.2 Mô hình s ử dụng hệ thống caching uỷ quyền (proxy caching)

Các máy chủ được uỷ quyền thường được triển khai trên mạng tại các điểm truy cập vào mạng (entry point) nhằm ngăn chặn các luồng thông tin truy cập vào mạng không mong muốn và kiểm soát các luồng thông tin ra khỏi mạng Cũng bởi đặc điểm về vị trí như vậy, trên các máy chủ này thường được cài đặt tính năng làm bộ đệm Và được gọi là bộ đệm uỷ quyền (proxy cache) Bộ đệm uỷ quyền đã giúp cho mạng dữ liệu của các doanh nghiệp và các nhà cung cấp dịch vụ Internet nhận ra được lợi ích của chia sẻ tài nguyên thông qua cơ chế này Khi người dùng có yêu cầu truy cập tới

Replica Origin

Server

Master Origin server

Replica Origin Server

Top level Caching proxy Upper level

Caching proxy

Upper level Caching proxy

First level

proxy

Caching proxy Array

First level proxy

Client Caching proxy

Network Element

Client Inter Cache Communication

Hình 1.6: Sơ đồ tổng quát hệ thống Web caching Web

Trang 27

(proxy server) Nếu máy chủ được uỷ quyền này có lưu trữ đối tượng, nó sẽ truyền đối tượng tới máy trạm có yêu cầu sử dụng Trong trường hợp máy chủ được uỷ quyền không có đối tượng, nó sẽ gửi một yêu cầu tới máy chủ gốc (lúc này máy chủ được uỷ quyền đóng vai trò như một máy trạm gửi yêu

cầu thông thường) Khi nhận được đối tượng từ máy chủ gốc, máy chủ được

uỷ quyền sẽ lưu trữ vào bộ nhớ cục bộ của nó và gửi một phiên bản copy tới máy trạm có yêu cầu ban đầu Khi có một yêu cầu truy xuất đối tượng từ một máy trạm khác, máy chủ được uỷ quyền có thể nhanh chóng cung cấp thông tin nhờ sử dụng ngay dữ liệu cục bộ của nó

Ưu điểm của cơ chế này là khi đã có một yêu cầu đến đối tượng từ

một người dùng nào đó, thì đối tượng này đã được sẵn sàng cho tất cả caching mesh Nội dung của đối tượng được cập nhật lại theo khoảng thời gian đã được định sẵn

Web Servers

Proxy server

Internet

Client Client Client

Web Servers

Hình 1.7: Mô hình của cơ chế sử dụng proxy caching

Trang 28

1.2.2.3 Mô hình s ử dụng hệ thống caching ủy quyền trong suốt TPC (Transparent proxy caching)

Thông thường, cách sử dụng máy chủ TPC trong suốt đòi hỏi người sử dụng phải chủ động thiết lập các tham số của trình duyệt, khai báo địa chỉ IP

của TPC mới có thể truy cập được thông tin Mọi việc sẽ thuận lợi và đơn

giản hơn nếu ta có thể ngăn chặn và kiểm soát các luồng thông tin truy cập không mong muốn mà không đòi hỏi phải cấu hình cho từng trình duyệt riêng biệt Tính năng “trong suốt” (transparent) ở đây hàm ý rằng người dùng sẽ không cần phải nhận biết TPC, không cần cấu hình trình duyệt của mình để truy cập vào mạng Một bộ đệm Web được gọi là trong suốt nếu các máy trạm có thể truy cập vào mạng mà không cần phải thiết lập bất kỳ cấu hình nào cho trình duyệt của mình, kể cả cấu hình tự động hay không tự động Cơ chế sử dụng TPC rất phù hợp với hạ tầng mạng hiện nay Chúng

hoạt động giống như những bức tường lửa trong suốt hơn là một hệ thống bao gồm nhiều máy chủ uỷ quyền (proxy) được bố trí phân tán Điều này cho phép các doanh nghiệp kết hợp các bộ đệm ẩn vào trong mạng

Tuy nhiên, khi được tích hợp vào mạng, bộ đệm trong suốt cần phải đảm bảo tính mềm dẻo và khả năng chịu lỗi như các thành phần khác trong

mạng

Một yêu cầu theo giao thức HTTP sẽ được gửi tới cho máy chủ được

uỷ quyền theo nhiều cách khác nhau Cách thông dụng nhất là sử dụng switch L4 Switch này nhận các gói tin về địa chỉ IP sử dụng cổng 80 và chuyển tiếp các gói tin này đến bộ đệm uỷ quyền Các yêu cầu theo giao thức HTTP đòi hỏi phải thiết lập một kết nối kiểu TCP và gói tin đầu tiên phải là gói tin đồng bộ (SYN packet) Switch sẽ chuyển tiếp gói tin này tới bộ đêm

uỷ quyền Bộ đệm uỷ quyền hoạt động như một máy chủ và trả về một gói

Trang 29

trạm gửi yêu cầu ban đầu sẽ nghĩ rằng các gói tin nhận được là đến từ máy

chủ gốc Bộ đệm uỷ quyền tiếp tục hoạt động như mô hình đã miêu tả ở trên Trong cơ chế sử dụng bộ đệm uỷ quyền ẩn, có một hoặc nhiều máy chủ được

uỷ quyền khác nằm giữa máy chủ gốc và máy chủ đang xử lý hiện tại Do

đó, các yêu cầu từ máy chủ uỷ quyền này tới máy chủ gốc có thể bị chặn và

xử lý bởi máy chủ uỷ quyền khác Cuối cùng, khi máy trạm nhận được đối tượng đã yêu cầu, nó không thể biết được máy chủ uỷ quyền, máy chủ gốc hay bất kỳ một máy chủ uỷ quyền trung gian nào đó đã xử lý yêu cầu bởi vì

phần thông tin về IP trong gói thông tin phản hồi luôn là địa chỉ IP của máy

chủ gốc

Máy chủ uỷ quyền không nhất thiết phải nằm trực tiếp trên được đi giữa máy chủ gốc và máy trạm Switch có nhiệm vụ quản lý các bộ đệm và định hướng lại các tuyến đường nối tới máy chủ gốc (Origin Server) Switch cũng có khả năng cân bằng tải, bằng cách phản phối các yêu cầu tới các máy

Cache

Internet

Client

Trang 30

1.2.2.4 Mô hình h ệ thống web caching phân cấp (Hierarchical Web Caching)

Cơ chế sử dụng bộ đệm uỷ quyền làm tăng khả năng chia sẻ thông tin Hạn chế của cơ chế này là các bộ đệm đều có dung lượng lưu trữ hữu hạn,

do đó số lượng đối tượng được lưu trữ cũng hạn chế Một bộ đệm uỷ quyền đơn lẻ cân bằng tải và giảm nhu cầu chiếm giữ đường truyền cho các máy

trạm do nó quản lý

Khi các bộ đệm được bố trí theo phân cấp, một bộ đệm sẽ có mối quan

hệ ngang hàng với các bộ đệm ở các vùng lân cận (nhánh khác trong cây)

Có 2 kiểu quan hệ chính: cha-con và ngang hàng Bộ đệm cha về bản chất là

một bộ đệm thuộc cấp trên trong mô hình phân cấp Bộ đệm ngang hàng là

bộ đệm thuộc cùng cấp

Internet

Down stream proxy

Up stream proxy

Down stream proxy

User pool

Hình 1.9 : Bộ đệm phân cấp

Trang 31

Khi một bộ đệm không nắm giữ đối tượng được yêu cầu, nó sẽ hỏi các

bộ đệm lân cận thông qua ICP xem có hay không có đối tượng này Lúc này

bộ đệm đóng vai trò như một máy trạm gửi yêu cầu tới các bộ đệm lân cận

nó Nếu một trong các bộ đệm lân cận có đối tượng [thông tin phản hồi “lân

cận có”], nó sẽ lấy đối tượng về và lưu trữ cục trong bộ nhớ cục bộ, và truyền đối tượng về cho máy trạm có yêu cầu ban đầu

Trong trường hợp không bộ đệm lân cận nào lưu trữ đối tượng [thông tin phản hồi “lân cận không có” ], yêu cầu của máy trạm sẽ được chuyển tiếp

tới bộ đệm cấp cha của nó hoặc chuyển trực tiếp tới máy chủ gốc Bộ đệm

cấp cha của nó sẽ thực hiện tìm kiếm đối tượng theo cơ chế tương tự cho đến khi đối tượng được trả về cho nó và trả về cho máy trạm có yêu cầu

Có sự khác nhau về bản chất giữa các bộ đệm khi tìm kiếm đối tượng Trong quá trình thăm dò các bộ đệm lân cận, tất cả các bộ đệm gửi yêu cầu đều có

thể nhận được thông tin phản hồi là “lân cận có”, trong khi đó chỉ những bộ đệm cấp cha mới có thể nhận được thông tin phản hồi là “lân cận không có”

1.2.2.5 Mô hình web caching phân tán (Distributed Web caching)

Mô hình bộ đệm phân cấp như đã trình bày trong phần trên có một số

vấn đề sau:

 Một yêu cầu đươc gửi đến từ một máy trạm có thể phải đi qua rất nhiều bộ đệm trong mô hình để tìm kiếm được thông tin Thông tin tìm thấy cũng phải đi qua nhiều chặng (theo chiều ngược lại) để trả về cho máy trạm

gửi yêu cầu

 Cơ chế tìm kiếm toàn bộ cây phân cấp gây nhiều thời gian trễ, thậm chí không thể chấp nhận được

 Việc chia sẻ tài nguyên giữa các bộ đệm không hiệu quả

Trang 32

Khắc phục những hạn chế trên, mô hình bộ đệm phân tán cho phép phân bố các máy chủ uỷ quyền giữ khoảng cách với nhau một cách hợp lý về mặt địa lý Các bộ đêm được tổ chức theo nhiều phân nhóm (cluster) và không theo mô hình phân cấp cụ thể nào

Mô hình này được bố trí theo các thuật toán tối ưu hoá và có được

những ưu điểm sau:

 Phân tán được vấn đề chịu tải cho server (chuyển về các bộ đệm uỷ quyền), sử dụng các bộ đệm riêng cho việc tải thông tin lên máy chủ và cho phép tải thông tin không trực tuyến (offline)

 Lưu trữ các vết về vị trí, cho phép các máy chủ uỷ quyền định vị thông tin gần nhất một cách nhanh chóng

 Sử dụng các bộ đệm trực tiếp để lưu trữ dữ liệu đang được trao đổi, tránh được trễ thời gian trong lưu trữ và chuyển tiếp thông tin

Việc lưu trữ các thông tin gợi ý về vị trí (lưu vết) cho phép một máy chủ xác định được máy chủ gần nhất có lưu trữ thông tin cần thiết Nhờ các thông tin gợi ý, các bộ đệm trong hệ thống có thể xác định được nhanh

Hình 1.10 : Mô hình bộ đệm phân tán

Internet

Mapping service

Trang 33

chóng các bộ đệm không hoạt động, và có thể trao đổi trực tiếp với máy

1.2.2.6 T ạo bản sao sử dụng kỹ thuật đa phát (multicast)

Tạo bản sao sử dụng kỹ thuật Multicast để đẩy dữ liệu tới các máy chủ

dữ phòng (là bản sao của máy chủ gốc) Về bản chất, cơ chế tạo bản sao (replication) khác với cơ chể sử dụng bộ đệm (caching) là trong cơ chế tạo bản sao, dữ liệu được đẩy từ máy chủ gốc tới các máy chủ dự phòng khác Như vậy dữ liệu ở các máy chủ chính và máy chủ dự phòng là giống nhau Ngược lại, trong cơ chế sử dụng bộ đệm, khi có yêu cầu, các máy chủ uỷ quyền truy cập và lấy dữ liệu từ máy chủ gốc để lưu vào bộ nhớ cục bộ của mình Dữ liệu ở các máy chủ uỷ quyền là không hoàn toàn giống nhau

Kỹ thuật Multicast có thể ứng dụng theo hướng cần nâng cao tính hiệu quả hay tính tin cậy Kỹ thuật UDP/IP Multicast có hiệu quả cao nhất, tuy nhiên cần phải ứng dụng thêm nhiều giao thức khác để đảm bảo tính tin cậy

Các đối tượng chỉ có thể được lưu trữ tại các máy nhận khi nó đảm bảo còn nguyên vẹn Để kiểm tra tính nguyên vẹn, có thể dùng thuật toán “kiểm tra tổng” Nếu đối tượng được xác nhận là còn nguyên vẹn thì lưu trữ, ngược lại thì huỷ đối tượng Kỹ thuật này có tỉ lệ lỗi cao, chỉ cần một gói tin bị lỗi thì toàn bộ đối tượng bị coi là lỗi không được chấp nhận

Để nâng cao tính tin cậy, giao thức ACK/NACK được áp dụng để phát hiện các gói tin lỗi và truyền lại các gói tin này

Trang 34

1.2.2.7 S ự khác nhau giữa cơ chế Tạo bản sao (replication) và cơ

ch ế Bộ đệm (caching)

Các hệ thống bộ đệm

 Giảm thời gian trễ do dữ liệu được truyền về gần với máy trạm

 Chỉ hoạt động và lưu trữ đối tượng dữ liệu khi có yêu cầu từ máy trạm

 Giảm nhu cầu chiếm đường truyền do chỉ lấy và truyền dữ liệu khi được yêu cầu

 Không đảm bảo được tính nhất quán về dữ liệu

 Có khả năng xảy ra các vấn đề về tính tin cậy do được thiết lập tại các điểm truy cập vào mạng Hệ thống bộ đệm bị hỏng có thể gây sập toàn bộ hệ

thống mạng

Các hệ thống tạo bản sao

 Biết chính xác khi nào nội dung của đối tượng thay đổi và chuyển ngay đối tượng tới các máy chủ dự phòng Do vậy, nội dung đối tượng luôn

nhất quán tại các nơi khác nhau

 Khả năng chịu lỗi và khôi phục dữ liệu cao do luôn có nhiều bản sao Các yêu cầu có thể được chuyển tiếp cho máy chủ khác nếu máy chủ gốc bị hỏng

 Cho phép cân bằng tải giữa các máy chủ

 Sử dụng nhiều dung lượng nhớ lưu trữ dữ liệu

 Đòi hỏi các thuật toán cân bằng tải hiệu quả

 Chiếm nhiều đường truyền nếu không có các thuật toán multicast tin

cậy

Trang 35

1.3 QUAN H Ệ GIỮA MÁY TRẠM VÀ MÁY CHỦ DỮ LIỆU

Phần này mô tả một số thành phần tham gia vào việc trao đổi giữa các máy trạm và máy chủ lưu trữ dữ liệu chính Những thành phần này được sử dụng vào việc xác định một máy chủ cung cấp dữ liệu tối ưu nhất

1.3.1 Định hướng lại địa chỉ URL (Uniform Resource Locator Redirection)

Một cơ chế đơn giản và thông dụng để kết nối giữa máy chủ và máy trạm là sử dụng giao thức HTTP, mã phản hồi 307 để tái định hướng địa chỉ

tạm thời Sau đó kết nối này sẽ quyết định giữ nguyên kết nối và cung cấp

dịch vụ hoặc chuyển kết nối sang một máy chủ khác

Vấn đề bảo mật:

Phụ thuộc hoàn toàn vào cơ chế bảo mật của giao thức HTTP

1.3.2 Định hướng lại tên miền (DNS redirection)

Hệ thống DNS cung cấp các chính sách kết nối giữa máy trạm và máy

chủ phức tạp và tin cậy hơn DNS sắp xếp các yêu cầu dựa trên chất lượng các dịch vụ Khi một máy trạm sử dụng tên máy chủ để truy cập, DNS sẽ xác định địa chỉ IP của máy chủ dự phòng hợp lý nhất để xử lý yêu cầu từ máy

trạm DNS cũng cung cấp khả năng cân bằng tải bằng cách phân tán các yêu

cầu tới các máy chủ một cách hợp lý

Vấn đề bảo mật:

Phụ thuộc hoàn toàn vào cơ chế bảo mật của DNS

Trang 36

1.3.3.Quan h ệ giữa các máy chủ (Replica to Replica Relationships) 1.3.3.1 T ạo bản sao theo lô (Batch Drive Mirror Replication)

Trong cơ chế này, các máy chủ cần cập nhật dữ liệu sẽ khởi tạo một kết nối tới máy chủ chính Giao tiếp giữa máy chủ chính và các máy chủ dự phòng được thực hiện theo hàng đợi Ngay khi kết nối được thiết lập, lô dữ

liệu sẽ được sao chép sang máy chủ dự phòng

V ấn đề bảo mật:

Phụ thuộc vào các chính sách bảo mật của các giao thức được sử dụng

để thiết lập kết nối và trao đổi dữ liệu FTP và RDIST là các giao thức thường được áp dụng hơn

1.3.3.2.T ạo bản sao theo yêu cầu

(Demand Driven Mirror Replication)

Trong cơ chế này, các máy chủ dự phòng sẽ có được dữ liệu cần thiết khi có nhu cầu Khi máy trạm có yêu cầu truy xuất dữ liệu, máy chủ dự phòng sẽ tìm kiếm trong dữ liệu cục bộ của nó Nếu không tìm thấy, nó sẽ thực hiện một kết nối tới máy chủ chính và lấy dữ liệu về

Trang 37

có thể được thiết lập cho thực hiện theo khoảng thời gian xác định Từ mức

độ cao như thực hiện đồng bộ theo từng phút, đến mức độ thấp hơn như đồng bộ hàng giờ, hàng ngày,…

V ấn đề bảo mật:

Các giao thức được sử dụng đều ứng dụng các cơ chế bảo mật Keberos, RSA

1.4 K ẾT LUẬN

Công nghệ lưu giữ và cung cấp nội dung Web tại nơi gần người truy

nhập số liệu Web là một trong những giải pháp công nghệ ở mức ứng dụng,

gốp phần làm giảm thời gian truy nhập số liệu Web cho người dùng cuối cùng, hạn chế và tránh tắc nghẽn lưu lượng số liệu trao đổi trên mạng

Ưu điểm của Web caching :

 Giảm bớt băng thông bởi việc giảm lưu lượng từ trình duyệt (browser) đến nội dung máy chủ

 Giảm bớt tải trên Web server khi có nhiều yêu cầu gửi đến máy chủ

 Truyền Web Object cho người sử dụng cuối cùng nhanh hơn

 Giảm bớt băng thông và chi phí , nó có lợi ích cho người sử dụng, người cung cấp dịch vụ và người sở hữu Web site

 Scalability: bộ đệm mạng có hàng nghìn Local server đối với nhu cầu nội dung lớn

 Tăng cường chất lượng dịch vụ khi nội dung được chuyển đến băng thông cao hơn

Trang 38

CH ƯƠNG 2

2.1 GI ỚI THIỆU CÁC KIẾN TRÚC CACHE

2.1.1 Ki ến trúc cache phân tầng – hierarchical cache

Hiệu năng của các cache proxy phụ thuộc vào số lượng client kết nối đến nó, càng có nhiều thuê bao sử dụng cache proxy thì xác suất để một trang Web đã từng được truy nhập trước đó, được lưu trong cache proxy càng cao Các hệ thống cache proxy được cộng tác với nhau để tăng tỷ lệ hit

Một trong những kiến trúc kết hợp các hệ thống cache với nhau là kiến trúc phân tầng Trong kiến trúc cache phân tầng, các hệ thống cache đặt ở nhiều tầng khác nhau của mạng Hệ thống cache phân tầng làm việc như sau

Tại cấp cuối cùng (đáy-bottom) trong kiến trúc phân tầng là các hệ thống cache client/browser (tính năng cache nằm ngày trong trình duyệt của người

sử dụng ) Nếu một yêu cầu không có trong cache của trình duyệt, yêu cầu này sẽ được chuyển đến cấp khu vực (institutional cache) Nếu nôi dung này vẫn không có trong tầng cache khu vực, yêu cầu về nội dung đó sẽ tiếp tục được chuyển tiếp đến hệ thống cache ở cấp vùng (regional cache) và đến lượt mình, hệ thống cache vùng sẽ tiếp tục gửi các yêu cầu chưa được đáp ứng đến hệ thống cache ở cấp quốc gia (national cache) Nếu nội dung này không được tìm thấy trong cache của hệ thống cache cấp quốc gia, hệ thống

Trang 39

này sẽ kết nối trực tiếp với máy chủ chứa nội dung yêu cầu Khi nội dung yêu cầu được tìm thấy tại một cấp cache nào đó hoặc lấy tại máy chủ, nó sẽ được gửi trả lại cho thuê bao đó theo cấu trúc phân tầng và một bản sao của nội dung này sẽ được lưu lại tại mỗi cấp trung gian mà nó đi qua Các yêu cầu cùng một nội dung sẽ được chuyển tiếp lên các cấp cache khác nhau cho đến khi nó được tìm thấy tại một cấp độ cache nào đó Kiến trúc phân tầng khá phổ biến, phần lớn các nhà cung cấp dịch vụ Internet (ISP) và các doanh nghiệp đã triến khai hệ thống cache theo kiến trúc này để giảm băng thông trên mạng trục và giảm độ trễ hay tăng thời gian đáp ứng cho thuê bao Trong một cấu trúc như vậy, các trang web thông dụng có thể được lưu trữ phân tán tuỳ theo nhu cầu truy cập các trang web đó Tuy nhiên, vẫn còn tồn tại một số vấn đề liên quan đến mô hình cache phân tầng:

 Để thiết lập một mô hình phân tầng như vậy, các máy chủ cache cần được đặt tại các điểm truy nhập chính trong mạng Điều này thường đòi hỏi

có nhiều sự phối hợp giữa các máy chủ cache tham gia vào hệ thống cache

 Mỗi cấp trong mô hình phân tầng sẽ tạo nên thêm một thời gian trễ

 Các hệ thống cache cấp cao có thể trở thành điểm nghẽn cổ chai (bottleneck) và có trễ lớn

 Nhiều bản sao của cùng một nội dung được lưu dư thừa tại nhiều cấp

độ cache khác nhau

Trang 40

2.1.2 Ki ến trúc cache phân tán (Distributed cache)

Gần đây, nhiều nhà nghiên cứu đã đề xuất việc thiết lập một phương thức cache phân tán hoàn toàn, trong đó chỉ tồn tại các hệ thống cache ở một

cấp Trong các hệ thống cache phân tán không có các hệ thống cache trung gian ngoại trừ hệ thống cache ở cấp vùng Trong hệ thống cache này các máy chủ cache sẽ phục vụ các yêu cầu từ các máy chủ cache khác trong cùng một

hệ thống Để xác định xem cần phải lấy nội dung từ máy chủ cache nào, tất

cả các máy chủ này đều lưu trữ các thông tin meta-data để quy chiếu đến các

nội dung chứa trong các máy chủ cache khác Để tăng hiệu quả và mở rộng khả năng phân tán các thông tin meta-data giữa các máy chủ, người ta sử dụng cơ chế phân tán có tính phân cấp Tuy nhiên mô hình phân cấp chỉ sử

Hình 2.1 : Kiến trúc phân tầng của Web Caching

Định dạng
Số trang	128
Dung lượng	1,97 MB