THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT Cache agent Hệ thống cache tại một nút mạng Cache hit Là tiến trình truy nhập web và lấy nội dung web có sẵn trên cache Cache miss Là tiến trình truy nhập we
Trang 1Bộ giáo dục và đào tạo trường đại học bách khoa Hà Nội
TAN KOSAL
Kiến trúc web caching – phân tích giảI
pháp web caching của isp
Trang 2trường đại học bách khoa Hà Nội
Chuyên ngành: công nghệ thông tin
Luận văn thạc sĩ công nghệ thông tin
Trang 3Người hướng dẫn:
TS Hồ Khánh Lâm
Hà Nội - 2005
Trang 4THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
Cache agent Hệ thống cache tại một nút mạng
Cache hit Là tiến trình truy nhập web và lấy nội dung web có sẵn
trên cache Cache miss Là tiến trình truy nhập web và nội dung web không có
sẵn trên cache, phải lấy từ máy chủ web Cache proxy Hệ thống cache được đấu nối trên mạng theo cơ chế
proxy CARP Cache Array Routing protocol - Thủ tục tìm kiếm nội
dung trang web dựa trên cơ chế hàm băm (Hash function) Client Là phần cứng hoặc phần mềm xét trong mối quan hệ
tương tác với hệ thống máy chủ (Server)
DNS Domain Name System - Hệ thống tên miền
FTP File Transfer Protocol – Giao thức truyền file
Gate-way Là cửa ngõ để giao tiếp với các mạng khác
GDS Greedy Dual Size - Thuật toán thay thể nội dung cache có
tính đến kích thước và chi phí của trang GDS(1) GD*(1) Là thuật toán GDS và GD* với chi phí không đổi
GDS(packets) Là thuật toán GDS và GD* với chi phí tính theo gói dữ
liệu = 2 GD*(packets) + Kích thước dữ liệu/536
Hop Một nút trong topology của mạng thường được sử dụng
với các thủ tục định tuyến RIP Hot Thiết bị trên mạng nói chung có địa chỉ IP ví dụ PC,
Server router…
HTML HyperText Markup language – Ngôn ngữ đánh dấu siêu
văn bản HTTP HyperText Transfer Protocol – Giao thức truyền dẫn siêu
văn bản ICP Internet Cache protocol - Thủ tục tìm kiếm và lấy nội
dung trang Web
ISP Internet Service Provider - Nhà cung cấp dịch vụ truy
nhập Internet LASM Large Scale Active Middleware - Bộ đệm trung gian quy
mô lớn
Trang 5LFU-DA Least Frequently Used with Dynamic Aging-Thuật toán
thay thế nội dung cache dựa trên tần suất truy nhập LRU Least recently used - Thuật toán thay thể nội dung cache
dựa trên tính tương quan theo thời gian của truy nhập Media Loại dữ liệu ví dụ tiếng nói, hình ảnh, văn bản, phìm… Mesh Mô tả mạng mà mỗi nút mạng đều có đương kết nối đến
các nút mạng còn lại MRU Most recently used - Vị trí lưu các trang mới được sử
dụng nhiều nhất trong ngăn xếp LRU MTTR Mean time to request - Thời gian trung bình tính tới lần
truy nhập tiếp theo Multimedia Loại dữ liệu kết hợp hình ảnh và âm thanh
Pre-fetch Là tiến trình đi lấy trược nội dung trang web được dự báo
sẽ được truy nhập trong thời gian tới Proxy Cơ chế đấu nối của một máy chủ trên mạng, máy chủ sẽ
đại diễn cho toàn bộ thuê bao hay máy trạm mà nó làm proxy để thực hiện các giao dịch mạng
RTT Route trip time - Độ trễ gói toàn trình
SLRU Segmented least recently used - Thuật toán thay thể nội
dung cache dựa trên tính tương quan theo thời gian của truy nhập
TCP Transmission Control Protocol - Giao thức điều khiển
truyền dẫn
TTR Time to request - Thời gian tới lần truy nhập tiếp theo
Tỷ lệ byte hit Tỷ lệ giữa tổng dung lượng của các trang web được truy
nhập mà nội dung của chúng đã được lưu sẵn trong cache proxy trên tổng số dung lượng của các trang web được truy nhập
Tỷ lệ hit Tỷ lệ giữa số truy nhập web mà nội dung được yêu cầu
đã được lưu sẵn trong cache proxy trên tổng số truy nhập UDP User Datagram Protocol – Giao thức truyền gói tin
WCCP Web cache coordination protocol: thủ tục cache để phối
hợp các bộ định tuyến, các hệ thống cache nhằm khai thác hiệu quả tài nguyên mạng và tại nguyên cache
Trang 6Hình 2.4 : Mô hình phân cấp của ISP ( Network topology) 31
Hình 2.5: Kiểu cây, cách đạt cache (Tree mode, showing cache
lacement.)
32
Hình 2.6 : Thời gian kết nối E[ ]Tc với mật độ trang λtot, ∆ = 24h,d= 15 sec 40
Hình 2.7 : Lưu lượng mạng phát sinh bởi kiến trúc phân tầng và kiến
trúc phân tán tại mỗi cấp độ cây
Trang 7Hình 2.11 : Thời gian kết nối phụ thuộc vào số lượng cache công tác
tại mỗi cấp mạng trong kiến trúc hỗn hợp
46
Hình 2.12 : Thời gian kết nối trong kiến trúc hỗn hợp với số cache
cộng tác tối ưu kc
47
Hình 2.13 : Thời gian truyền trung bình phụ thuộc vào số lượng
cachecộng tác trong mô hình hỗn hợp với ( ρ = 0 3 ) và
) 8 0 ( ρ = , S = 15KB
8
= ρ
50
Hình 4.1: Lược đồ thay thế nội dung cache của thuật toán LRU 75
Hình 4.2: Lược đồ thay thể nội dung cache của thuật toán SLRU 77
Hình 5.1: Miều tả chung những Cache Farm trong một mạng ISP 95
Trang 8Hình 5.3: Cơ sở hạ tầng mạng Internet ở Cămpuchia hiện nay 98
Hình 5.4 : Sơ đồ mạng lưới Web Caching của mạng ISP NiDa 102
Hình 6.2 : Cấu hình trình duyệt Netscape cho Web Caching 113
Hình 6.3 : Cấu hình trình duyệt Netscape tự động cho Web caching 114
Hình 6.4: Cấu hình trình duyệt Mozilla cho Web caching 115
DANH MỤC BẢNG
Trang 9TÀI LIỆU THAM KHẢO
1 Mạng máy tính và các hệ thống mở - Nguyễn Thúc Hải
2 Công nghệ mạng máy tính – Nhà xuất bản Bưu Điện,2001
3 Các bài viết về Internet - TS Hồ Khánh Lâm - Tạp chí Bưu chính viễn thông
4 Công nghệ Internet Cache ứng dụng.Vũ Duy Lợi, Trần Trọng Minh
5 Analisis of Web Caching Architecture:Hierarchical and Distributed Caching – Pablo Rodriguez, Christian Spanner, and Ernst Ư.Biersack, Member IEEE-Tạp chí IEEE/ACM Transactions on Network, Vol 9,No 4,August 2001
6 Algorithms Of The Internet, Organized by Christian chindelhauer Elaboration on Topic 03 Web Caching by Stefan Luecking (6014415) stl(at)upb.de University of Paderborn, Date: August, 4th, 2004
7 Internet Cache Protocol (ICP), version 2 , D Wessels, K Claffy, National Laboratory for Applied Network Research/UCSD September 1997
8 Implementation and comparison of distributed caching schemes, S.Selvakumar, P.Prabhakar Department of Computer Science and Engineering, Regional Engeneering College, Tirachirappalli, Tamil Nadu, India Extract in Computer and Communications Magazine, Received 14 March 2000, Revised 24 July 2000, Accepted 27 July 2000
9 Web Distribution Systems : Caching and Replication,
Trang 10I-BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
BẢN NHẬN XÉT LUẬN VĂN CAO HỌC
Họ và tên học viên : Tan kosal Chuyên ngành : Công Nghệ Thông Tin Khoá : 2003 – 2005 Người hướng dẫn : TS Hồ Khánh Lâm Nội dung:” Kiến trúc Web Caching – Phân tích giải pháp Web Caching của ISP ở Cămpuchia” Nhận xét của người hướng dẫn :
Hà nội, ngày tháng năm 2005 Người hướng dẫn
TS Hồ Khánh Lâm
Trang 11MỤC LỤC
LỜI NÓI ĐẦU 1
CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ WEB CACHING 1.1 VÌ SAO PHẢI DÙNG WEB CACHING ? 3
1.1.1 Sự phát triển của Internet 3
1.1.2 Các giải pháp 3
1.2 GIỚI THIỆU VỀ WEB CACHING 5
1.2.1 Một số khái niệm 6
1.2.2 Một số mô hình hệ thống tiêu biểu 12
1.3 QUAN HỆ GIỮA MÁY TRẠM VÀ MÁY CHỦ DỮ LIỆU 22
1.3.1 Định hướng lại địa chỉ URL 22
1.3.2 Định hướng lại tên miền 22
1.3.3 Quan hệ giữa các máy chủ 23
1.4 KẾT LUẬN 24
CHƯƠNG 2: SO SÁNH PHÂN TÍCH CÁC MÔ HÌNH KIẾN TRÚC HỆ THỐNG WEB CACHING 2.1 GIỚI THIỆU CÁC KIẾN TRÚC CACHE 25
2.1.1 Kiến trúc cache phân tầng – hierarchical Cache 25
2.1.2 Kiến trúc cache phân tán - Distributed Cache 27
2.1.3 Kiến trúc cache hỗn hợp – Hybit cache 28
2.2 ĐÁNH GIÁ HIỆU NĂNG CỦA KIẾN TRÚC PHÂN TẦNG VÀ PHÂN TÁN 30
2.2.1 Mô hình mạng 31
2.2.2 Mô hình trang 33
2.2.3 Kiến trúc phân tầng 34
2.2.4 Kiến trúc phân tán 34
2.2.5 Phân tích độ trễ 35
Trang 122.2.6 Thời gian kết nối 39
2.3 ĐÁNH GÍA HIỆU NĂNG CỦA KIẾN TRÚC HỖN HỢP 45
2.3.1 Thời gian kết nối 45
2.3.2 Thời gian truyền 47
2.3.3 Thời gian trễ 49
2.4 KẾT LUẬN 51
CHƯƠNG 3 : CÁC GIAO THỨC CHO WEB CACHING 3.1 ĐẶT VẤN ĐỀ 52
3.2 CÁC GIAO THỨC CỦA WEB CACHING 53
3.2.1 Giao thức ICP (Internet Cache Protocol) 53
3.2.2 Giao thức HTCP (HyperText Cache Protocol) 54
3.2.3 Giao thức CARP 54
3.2.4 Cache Digest 55
3.2.5 Các giao thức dựa trên Multicast 55
3.2.6 Proxy lưu trữ đảo ngược 57
3.2.7 WCCP (Web Cache Control Protocol ) 59
3.3 GIAO THỨC ICPv2 59
2.3.1 Khái niệm 59
2.3.2 Định dạng tin nhắn ICPv2 61
2.3.3 ICP_OPCODE 63
2.3.4 ICP OPTION FLAG ( Cờ lựa chọn ICPv2) 68
CHƯƠNG 4: THUẬT TOÁN CỦA WEB CACHING 4.1 TỔNG QUÁT VỀ CÁC THUẬT TOÁN CACHING 72
4.2 SỰ CẦN THIẾT CỦA WEB CACHING 73
4.3 MỘT SỐ THUẬT TOÁN CỦA WEB CACHING 75
4.3.1 Thuật toán Least Recently Used LRU 75
4.3.2.Thuật toán Segmented Least Recently Used 76
4.3.3.Thuật toán Least Frequently Used With Dynamic Aging 78
Trang 134.3.5 Thuật toán GreedyDual-Size 80
4.3.6 THUẬT TOÁN GREEDY DUAL *(GD*) 88
4.4 KẾT LUẬN 90
CHƯƠNG 5: GIẢI PHÁP WEB CACHING CỦA MỘT ISP Ở CĂMPUCHIA 5.1 CISCO CACHE ENGINE 92
5.1.1 Giới thiệu Cisco Cache Engine 92
5.1.2 Những đặc điểm của Cache Engine 93
5.1.3 Tìm hiểu phần cứng Cache Engine 94
5.1.4 Ví dụ cấu hình của ISP 95
5.2 MẠNG INTERNET TẠI CĂMPUCHIA 97
5.2.1 Khảo sát hiện trạng mạng viễn thông Cămpuchia 97
5.2.2 Đánh giá Internet của Cămpuchia 101
5.3 KHẢO SÁT HỆ THỐNG WEB CACHING CỦA MẠNG ISP NiDa 102 5.3.1 Nhận xét chung của NiDa 103
5.3.2 Đề xuất giải pháp cho ISP NiDa 105
5.4 KẾT LUẬN 106
CHƯƠNG 6: ÁP DỤNG SQUID CHO WEB CACHING 6.1 CÔNG CỤ PHẦN MỀM SQUID CHO WEB CACHING 108
6.1.1 Squid là gì ? 108
6.1.2 Vì sao phải chọn Squdi ? 109
6.1.3 Đặc điểm của Squid 109
6.1.4 Mô hình thử nghiệm của Squid 110
6.2 PHƯƠNG PHÁP CÀI ĐẶT VÀ CHẠY SQUID 110
6.2.1 Cấu hình để chạy được phần mềm Squid 110
6.2.2 Cài đặt Squid 111
6.2.3 Chạy phần mềm Squid 111
6.2.4 Quản hệ giữa browsers và Squid 112
Trang 14L ỜI NÓI ĐẦU
Ngày nay internet đã trở thành công nghệ tiêu chuẩn, kết nối mở các
hệ thống tính toán và các mạng máy tính không đồng nhất Việc phát triển bùng nổ các mạng Internet/Intranet, việc cung cấp các dịch vụ thông tin về kinh tế, văn hoá, xã hội ngày càng phong phú trên mạng cũng như xu thế tích hợp các hệ thống thông tin trong các hoạt động chính trị, kinh tế, xã
hội trên giao diện web nói riêng, cũng như việc tối ưu hóa lưu lượng số
liệu, hạn chế đến mức tối đa khả năng tắc nghẽn số liệu trao đổi trên mạng trên nên rất cần thiết
Công nghệ lưu trữ và cung cấp nội dung trang web tại nơi gần người
sử dụng gọi là công nghệ Internet Web Caching Đây là một trong những
giải pháp công nghệ góp phần giải quyết vấn đề nghẽn, nâng cao tốc độ truy cập Internet, tối ưu được băng thông Giải pháp web caching được đa số các nhà cung cấp dịch vụ Internet (ISP) sử dụng để nâng cao chất lượng cung
cấp dịch vụ truy cập Internet và tiết kiệm chi phí đầu tư cho cơ sở hạ tầng
mạng, công suất thiết bị Kỹ thuật Web caching luôn mang tính thời sự và
cần được liên tục nâng cấp để đáp ứng nhu cầu gia tăng với tốc độ chóng mặt của số lượng người dùng Internet trên toàn cầu và chi phí cho băng thông của hạ tầng mạng Internet
Đó là lý do vì sao chọn nghiên cứu về web caching của luận văn
Bản luận văn này được trình bày thành 6 chương trong khoảng
… (120) A4
Chương I: Giới thiệu chung về Web Caching
Chương II: So sánh phân tích các mô hình kiến trúc hệ thống Web Caching
Trang 15Chương IV: Thuật toán của Web Caching
Chương V: Giải pháp Web Caching của một ISP ở Cămpuchia
Chương VI: Áp dụng Squid cho Web Caching
Trong quá trình thực hiện đề tài này tôi đã nhận được sự giúp đỡ tận tình của thầy hướng dẫn TS H ồ Khánh Lâm đã nhiệt tình giúp đỡ và hướng
dẫn tôi hoàn thành đồ án tốt nghiệp này
Tôi xin gửi lời cảm ơn chân thành tới các thầy cô giáo trong khoa cộng nghệ thông tin của trường đại học Bách khoa Hà Nội
Một lần nữa tôi xin cảm ơn tất cả những ai sẽ đọc và góp ý cho luận
văn này
Trang 16CH ƯƠNG 1
GI ỚI THIỆU CHUNG VỀ WEB CACHING
1.1 VÌ SAO PH ẢI DÙNG WEB CACHING ?
1.1.1 S ự phát triển của Internet
Trong những năm gần đây, với sự phát triển nhanh chóng, Internet đã
trở thành nguồn cung cấp thông tin khổng lồ và phong phú, đặc biệt là trên các web sites Số lượng các trang web ước tính đã hơn 3 tỷ và gần 80% số
lượng người sử dụng Internet là truy cập lấy nội dung các trang web Điều này làm cho các hệ thống máy chủ dịch vụ web và các kênh truyền thông trở nên nhanh chóng bị quá tải và nghẽn Chi phí lớn cho đầu tư tăng dung
lượng, công suất cho các máy chủ dịch vụ và truyền dẫn không thể đáp ứng
kịp thời tốc độ phát triển của nhu cầu sử dụng Internet Các nhà cung cấp dịch vụ Internet (ISP) một mặt phải đáp ứng nhu cầu sử dụng Internet của số lượng lớn những người sử dụng, một mặt phải đảm bảo chất lượng cung cấp
dịch vụ (giảm tắc nghẽn, tăng tốc độ truy cập thông tin) với sự tiết kiệm chi phí về thuê kênh viễn thông Đó là vấn đề cần phải có giải pháp để thỏa mãn
sự phát triển của Internet
1.1.2 Các gi ải pháp
Các giải pháp đều phải khắc phục các nhược điểm của Internet Services, đó là: giảm nghẽn băng thông ở các cấp mạng: mạng trục quốc gia (National network); các mạng vùng (Regional networks); và các mạng khu vực (Institutional networks)
Trang 17Giải pháp phổ biến nhất là nâng cấp các nguồn tài nguyên mạng như:
sử dụng các server mạnh, truyền dẫn băng thông rộng, tối ưu cấu trúc mạng
về định tuyến, phân tải, v.v… Tuy nhiên, cách tiếp cận trên phải chịu chi phí lớn về mặt kinh tế, nhưng tốc độ đầu tư và chi phí lớn không thể đáp ứng kịp
thời được tốc độ tăng của yêu cầu truy cập Internet
Vì hơn khoảng 70-80% các truy cập Internet là tham chiếu lấy các nội dung của các Web Sites Do vậy phần lớn lưu lượng chiếm tải của các hệ thống cung cấp dịch vụ và các kênh truyền dẫn là các giao dịch của WWW
giữa người sử dụng (Clients) và các Web Servers Vậy thì nếu sử dụng giải pháp bộ nhớ đệm tốc độ cao (cache) để lưu trữ các nội dung các trang web
phổ biến, thông dụng được nhiều người sử dụng tham chiếu đến thì cũng chứng tỏ được những ưu điểm của nó:
Bộ đệm làm giảm bớt nhu cầu chiếm giữ đường truyền (khoảng 35%),
giảm thông lượng giữa các máy trạm (clients) và máy chủ thông tin (content servers)
Bộ đệm cải thiện chất lượng dịch vụ (QoS) thông qua việc phân phối thông tin với băng thông rộng tốc độ cao hơn, giảm thời gian trễ và chờ đợi ở phía người dùng đầu cuối (Client)
Khi người sử dụng tham chiếu một nội dung của trang web nào đó lần đầu bằng trình duyệt Web, trình duyệt Web sẽ lưu đệm trang Web đó tại máy tính của người sử dụng (local web caching) Như vậy, lần tham chiếu trang Web đó tiếp theo thì nội dung trang Web đó được lấy ngay tại máy tính của
người sử dụng mà không cần phải chuyển yêu cầu của trình duyệt Web lên trên mạng cấp trên hoặc đến tận máy chủ gốc (Origin server) của trang Web
để tìm kiếm Do đó giảm được lưu lượng sử dụng băng thông ở mạng cấp trên và sự trễ đối với người dùng Tính năng Web caching cục bộ này trên
Trang 18duyệt Web của Microsoft, Netscape hay Mozilla của linux Redhat với trường History (microsoft) Tuy nhiên trong môi trường rộng lớn hơn, như trong mạng máy tính cục bộ (LAN) có nhiều máy tính kết nối thì “local cache” cho web được mở rộng thành một “share cache” chia sẻ cho tất cả người dùng trong một mạng cục bộ Khi số lượng của người dùng kết nối vào một bộ đệm đơn (single cache) nhỏ, còn số lượng thông tin trên Web nhiều, thì các tính năng của cache bị giảm sút Tỷ lệ truy nhập trúng trang Web (hit) tại cache của mạng cục bộ của một cơ quan (các yêu cầu của những người sử
dụng có thể được phục vụ bởi cache có lưu bản sao trang Web) thường trong khoảng 30% đến 50%
Do vậy Web Caching là một giải pháp hiệu quả nhất và đỡ tốn kém
chi phí nhất để nâng cao chất lượng dịch vụ đáp ứng được phần lớn các nhu cầu của người sử dụng truy nhập lấy nội dung thông tin trên Web
1.2 GI ỚI THIỆU VỀ WEB CACHING
Bộ nhớ đệm là một vùng lưu trữ tạm các thông tin được sao chép từ thông tin gốc Có hàng triệu trang Web trên mạng internet, điều này đồng nghĩa với việc có một khối lượng thông tin khổng lồ, và hàng triệu các đối tượng cần xử lý khác nhau Trong quá trình khai thác thông tin, rất nhiều yêu
cầu người dùng tới cùng một đối tượng Một ví dụ điển hình là logo của Yahoo trên trang Web của công ty này Hình logo này xuất hiện tại tất cả các trang Web thông tin Mỗi trang lại được truy cập bởi nhiều người dùng và nhiều lần trong ngày Bộ đệm cho Web là một hệ thống máy tính chuyên
dụng quản lý và lưu trữ các đối tượng khi nó truy xuất đối tượng từ máy chủ Với các yêu cầu đến đối tượng, bộ đệm sẽ xử lý và truyền tải đối tượng từ vùng nhớ của nó thay vì gửi yêu cầu đến Server lưu trữ đối tượng gốc Mọi
Trang 19một khoảng thời gian cho mỗi đối tượng Khi qua khoảng thời gian này, bộ đệm sẽ tự động lấy lại nội dung của đối tượng được lưu trữ trên máy chủ gốc Điều này đảm bảo luôn phản ánh đúng nội dung của đối tượng đối với người dùng Càng có nhiều yêu cầu truy xuất chung tới một đối tượng, phương pháp này càng thể hiện được tính hiệu quả của nó
1.2.1 M ột số khái niệm
Client
Client là bất kỳ ứng dụng nào tạo nên sự kết nối sử dụng cho mục đích
gửi yêu cầu
Web Cache
Web Cache
Cache Internet Cache
Hình 1.1 : Kiến trúc cơ bản của một bộ đệm cho Web
Trang 20Web Server
Về mặt kỹ thuật, Web server gồm có phần mềm và phần cứng để xây
dựng Web server của mình thì phải thiết đặt phầm mềm đặc biệt tới máy tính đặc biệt hoặc mạng LAN và hệ điều hành (hoặc Network operating system – NOS) mà đang chạy Web server có thể thực hiện một số nhiệm vụ như sau:
Hoạt động việc đăng ký
Xác nhận những người sử dụng
Ghi địa chỉ Internet, thời gian và yêu cầu mà làm cho mỗi kết nối
Bảo vệ tập tin
Truyền các yêu cầu dữ liệu mà cả browser lẫn server có thể truy
cập trực tiếp tới các ứng dụng gọi là gateway
HTTP
FPT
Gopher
Online Browser Addressing Schemer
common Protocols Format Negotiation
Hình 1.2: Mô hình Client/Server
Trang 21 Để giải thích mã HTML trong tài liệu nó nhận từ máy chủ và đưa
ra tài liệu đó tới người sử dụng với nhiều định dạng browser
Khi nhập URL khác, quá trình sẽ bắt đầu lại khắp nơi Browser sử dụng URL để yêu cầu tài liệu rồi cho đợi máy chủ trả lại tài liệu
Hình 1.3: Quan hệ giữa Web browser và Internet Server
Trang 22Là một hệ thống trung gian đóng vai trò vừa là server vừa là client với
mục đích đưa ra yêu cầu đến Origin Server, thay thế các client xuất phát yêu cầu Những proxy thông thường nằm ở điểm truy cập mạng và có hệ thống caching để lưu trữ những nội dung trang web thường xuyên được truy nhập đến Các client thông quá trình duyệt web gửi yêu cầu nội dung trang web đến proxy Nếu nội dung trang web đã được cache trong proxy thì proxy có thể đáp ứng ngay cho client Nếu nội dung trang web yêu cầu không có trong proxy thì proxy sẽ chuyển tiếp yêu cầu của client đến hệ thống web caching cung cấp hay cấp trên hoặc đến thẳng Origin server Như vậy, trong trường
Clients
Clients
Clients Internet
Proxy
Proxy
Proxy
Hình 1.4: mô hình proxy
Trang 23xuất phát yêu cầu Khi nhận thông tin từ server nguồn, thì proxy sẽ chuyển
tiếp nội dung web đến client, đồng thời lưu trữ nội dung trang web tại cache của mình
Reverse Proxy
Proxy ngược là một proxy nằm phía Origin server và lưu trữ những
nội dung thường xuyên được các Client yêu cầu Các proxy ngược thường được dùng như những cổng phía trước các Origin server sau firewall của mạng và đóng vai trò hỗ trợ giảm tải cho các Origin server
Neighbor/sibling Web cache server
Caching Server tham gia trong mạng lưới caching (caching mesh),
gửi/nhận những yêu cầu những Cache Server khác
Cluster
Là một tập hợp các thiết bị nối cặp với nhau cùng hoạt động để chia
sẻ tải
Local caching proxy
Là proxy cục bộ mà người sử dụng kết nối trực tiếp
Intermediate caching proxy
Theo các nhà cung cấp nội dung thì caching proxy trung gian là tất cả các hệ thống cache có trong caching mesh và không phải là các local caching proxy của người sử dụng
Web Proxy Server
Web proxy server là một máy chủ HTTP chuyên dụng Proxy server dùng để cho phép các client bên trong (internal clients) truy cập đến internet
từ sau một firewall bất kỳ ai ở đằng sau firewall có thể có đủ Web truy nhập qua máy chủ firewall (Firewall host) với nội lực nhỏ và không cần dàn xếp bảo mật
Trang 24Proxy server lắng nghe những yêu cầu từ các clients bên trong firewall
và chuyển các yêu cầu đến máy chủ (remote internet servers) bên ngoài firewall Proxy server đáp ứng đọc từ máy chủ bên ngoài và sau đó gửi chúng cho các Client bên trong Đa số Proxy server được thực hiện trên một
cơ sở phương pháp truy nhập Proxy server có thể cho phép hoặc không cho phép yêu cầu bên trong tuỳ theo giao thức của yêu cầu ví dụ: proxy server
có thể cho phép gọi tới FTP Server khi không cho phép gọi tới HTTP server
Khi nào cần sử dụng Web Proxy Server ?
Có thể dùng Web proxy server như sau:
Cho phép và hạn chế Client truy cập đến Internet dựa trên địa chỉ
IP của Client
Tài liệu chaching cho tài liệu bên trong
Có sự lựa chọn điều kiện để truy cập tới internet và Subnet dựa trên URL
Cung cấp sự truy cập Internet cho các công ty sử dụng private network
Việc chuyển đổi dữ liệu dạng HTML vì vậy nó đọc được do browser
On a Corporate Firewall
Trang 25Cache Server
Là những server không phục vụ như bản thân một proxy mà chúng phục vụ các yêu cầu được tạo ra từ các local caching proxy và các caching proxy ở các cấp mạng trên
Caching mesh
Là một tập hợp các proxy cache hoạt động phối hợp (co-operating proxy caches) hoặc các caching servers hoặc các clusters kết hợp từng cặp chặt chẽ và hoạt động độc lập nhưng chia sẻ nội dung giữa chúng với nhau
bằng cách sử dụng các giao thức quan hệ cache bên trong (Inter Cache Communincation Protocols)
Transparent Proxy
Một proxy trong suốt là một proxy loại bỏ những thứ cần thiết cho cấu hình trình duyệt khi người sử dụng truy nhập một proxy
Local Web Cache Server
Caching Server chạy trên cùng LAN như một người sử dụng
1.2.2.M ột số mô hình hệ thông tiêu biểu
1.2.2.1 Mô hình t ổng quát (xem hình 1.6)
Hình 1.6 mô tả về thành phần tạo ra Web Caching và hệ thống tiêu
biểu giữa các thành phần
Trang 261.2.2.2 Mô hình s ử dụng hệ thống caching uỷ quyền (proxy caching)
Các máy chủ được uỷ quyền thường được triển khai trên mạng tại các điểm truy cập vào mạng (entry point) nhằm ngăn chặn các luồng thông tin truy cập vào mạng không mong muốn và kiểm soát các luồng thông tin ra khỏi mạng Cũng bởi đặc điểm về vị trí như vậy, trên các máy chủ này thường được cài đặt tính năng làm bộ đệm Và được gọi là bộ đệm uỷ quyền (proxy cache) Bộ đệm uỷ quyền đã giúp cho mạng dữ liệu của các doanh nghiệp và các nhà cung cấp dịch vụ Internet nhận ra được lợi ích của chia sẻ tài nguyên thông qua cơ chế này Khi người dùng có yêu cầu truy cập tới
Replica Origin
Server
Master Origin server
Replica Origin Server
Top level Caching proxy Upper level
Caching proxy
Upper level Caching proxy
First level
proxy
Caching proxy Array
First level proxy
Client Caching proxy
Network Element
Client Inter Cache Communication
Hình 1.6: Sơ đồ tổng quát hệ thống Web caching Web
Trang 27(proxy server) Nếu máy chủ được uỷ quyền này có lưu trữ đối tượng, nó sẽ truyền đối tượng tới máy trạm có yêu cầu sử dụng Trong trường hợp máy chủ được uỷ quyền không có đối tượng, nó sẽ gửi một yêu cầu tới máy chủ gốc (lúc này máy chủ được uỷ quyền đóng vai trò như một máy trạm gửi yêu
cầu thông thường) Khi nhận được đối tượng từ máy chủ gốc, máy chủ được
uỷ quyền sẽ lưu trữ vào bộ nhớ cục bộ của nó và gửi một phiên bản copy tới máy trạm có yêu cầu ban đầu Khi có một yêu cầu truy xuất đối tượng từ một máy trạm khác, máy chủ được uỷ quyền có thể nhanh chóng cung cấp thông tin nhờ sử dụng ngay dữ liệu cục bộ của nó
Ưu điểm của cơ chế này là khi đã có một yêu cầu đến đối tượng từ
một người dùng nào đó, thì đối tượng này đã được sẵn sàng cho tất cả caching mesh Nội dung của đối tượng được cập nhật lại theo khoảng thời gian đã được định sẵn
Web Servers
Proxy server
Internet
Client Client Client
Web Servers
Hình 1.7: Mô hình của cơ chế sử dụng proxy caching
Trang 281.2.2.3 Mô hình s ử dụng hệ thống caching ủy quyền trong suốt TPC (Transparent proxy caching)
Thông thường, cách sử dụng máy chủ TPC trong suốt đòi hỏi người sử dụng phải chủ động thiết lập các tham số của trình duyệt, khai báo địa chỉ IP
của TPC mới có thể truy cập được thông tin Mọi việc sẽ thuận lợi và đơn
giản hơn nếu ta có thể ngăn chặn và kiểm soát các luồng thông tin truy cập không mong muốn mà không đòi hỏi phải cấu hình cho từng trình duyệt riêng biệt Tính năng “trong suốt” (transparent) ở đây hàm ý rằng người dùng sẽ không cần phải nhận biết TPC, không cần cấu hình trình duyệt của mình để truy cập vào mạng Một bộ đệm Web được gọi là trong suốt nếu các máy trạm có thể truy cập vào mạng mà không cần phải thiết lập bất kỳ cấu hình nào cho trình duyệt của mình, kể cả cấu hình tự động hay không tự động Cơ chế sử dụng TPC rất phù hợp với hạ tầng mạng hiện nay Chúng
hoạt động giống như những bức tường lửa trong suốt hơn là một hệ thống bao gồm nhiều máy chủ uỷ quyền (proxy) được bố trí phân tán Điều này cho phép các doanh nghiệp kết hợp các bộ đệm ẩn vào trong mạng
Tuy nhiên, khi được tích hợp vào mạng, bộ đệm trong suốt cần phải đảm bảo tính mềm dẻo và khả năng chịu lỗi như các thành phần khác trong
mạng
Một yêu cầu theo giao thức HTTP sẽ được gửi tới cho máy chủ được
uỷ quyền theo nhiều cách khác nhau Cách thông dụng nhất là sử dụng switch L4 Switch này nhận các gói tin về địa chỉ IP sử dụng cổng 80 và chuyển tiếp các gói tin này đến bộ đệm uỷ quyền Các yêu cầu theo giao thức HTTP đòi hỏi phải thiết lập một kết nối kiểu TCP và gói tin đầu tiên phải là gói tin đồng bộ (SYN packet) Switch sẽ chuyển tiếp gói tin này tới bộ đêm
uỷ quyền Bộ đệm uỷ quyền hoạt động như một máy chủ và trả về một gói
Trang 29trạm gửi yêu cầu ban đầu sẽ nghĩ rằng các gói tin nhận được là đến từ máy
chủ gốc Bộ đệm uỷ quyền tiếp tục hoạt động như mô hình đã miêu tả ở trên Trong cơ chế sử dụng bộ đệm uỷ quyền ẩn, có một hoặc nhiều máy chủ được
uỷ quyền khác nằm giữa máy chủ gốc và máy chủ đang xử lý hiện tại Do
đó, các yêu cầu từ máy chủ uỷ quyền này tới máy chủ gốc có thể bị chặn và
xử lý bởi máy chủ uỷ quyền khác Cuối cùng, khi máy trạm nhận được đối tượng đã yêu cầu, nó không thể biết được máy chủ uỷ quyền, máy chủ gốc hay bất kỳ một máy chủ uỷ quyền trung gian nào đó đã xử lý yêu cầu bởi vì
phần thông tin về IP trong gói thông tin phản hồi luôn là địa chỉ IP của máy
chủ gốc
Máy chủ uỷ quyền không nhất thiết phải nằm trực tiếp trên được đi giữa máy chủ gốc và máy trạm Switch có nhiệm vụ quản lý các bộ đệm và định hướng lại các tuyến đường nối tới máy chủ gốc (Origin Server) Switch cũng có khả năng cân bằng tải, bằng cách phản phối các yêu cầu tới các máy
Cache
Internet
Client
Trang 301.2.2.4 Mô hình h ệ thống web caching phân cấp (Hierarchical Web Caching)
Cơ chế sử dụng bộ đệm uỷ quyền làm tăng khả năng chia sẻ thông tin Hạn chế của cơ chế này là các bộ đệm đều có dung lượng lưu trữ hữu hạn,
do đó số lượng đối tượng được lưu trữ cũng hạn chế Một bộ đệm uỷ quyền đơn lẻ cân bằng tải và giảm nhu cầu chiếm giữ đường truyền cho các máy
trạm do nó quản lý
Khi các bộ đệm được bố trí theo phân cấp, một bộ đệm sẽ có mối quan
hệ ngang hàng với các bộ đệm ở các vùng lân cận (nhánh khác trong cây)
Có 2 kiểu quan hệ chính: cha-con và ngang hàng Bộ đệm cha về bản chất là
một bộ đệm thuộc cấp trên trong mô hình phân cấp Bộ đệm ngang hàng là
bộ đệm thuộc cùng cấp
Internet
Down stream proxy
Up stream proxy
Up stream proxy
Down stream proxy
Down stream proxy
Down stream proxy
User pool
User pool
User pool
User pool
Hình 1.9 : Bộ đệm phân cấp
Trang 31Khi một bộ đệm không nắm giữ đối tượng được yêu cầu, nó sẽ hỏi các
bộ đệm lân cận thông qua ICP xem có hay không có đối tượng này Lúc này
bộ đệm đóng vai trò như một máy trạm gửi yêu cầu tới các bộ đệm lân cận
nó Nếu một trong các bộ đệm lân cận có đối tượng [thông tin phản hồi “lân
cận có”], nó sẽ lấy đối tượng về và lưu trữ cục trong bộ nhớ cục bộ, và truyền đối tượng về cho máy trạm có yêu cầu ban đầu
Trong trường hợp không bộ đệm lân cận nào lưu trữ đối tượng [thông tin phản hồi “lân cận không có” ], yêu cầu của máy trạm sẽ được chuyển tiếp
tới bộ đệm cấp cha của nó hoặc chuyển trực tiếp tới máy chủ gốc Bộ đệm
cấp cha của nó sẽ thực hiện tìm kiếm đối tượng theo cơ chế tương tự cho đến khi đối tượng được trả về cho nó và trả về cho máy trạm có yêu cầu
Có sự khác nhau về bản chất giữa các bộ đệm khi tìm kiếm đối tượng Trong quá trình thăm dò các bộ đệm lân cận, tất cả các bộ đệm gửi yêu cầu đều có
thể nhận được thông tin phản hồi là “lân cận có”, trong khi đó chỉ những bộ đệm cấp cha mới có thể nhận được thông tin phản hồi là “lân cận không có”
1.2.2.5 Mô hình web caching phân tán (Distributed Web caching)
Mô hình bộ đệm phân cấp như đã trình bày trong phần trên có một số
vấn đề sau:
Một yêu cầu đươc gửi đến từ một máy trạm có thể phải đi qua rất nhiều bộ đệm trong mô hình để tìm kiếm được thông tin Thông tin tìm thấy cũng phải đi qua nhiều chặng (theo chiều ngược lại) để trả về cho máy trạm
gửi yêu cầu
Cơ chế tìm kiếm toàn bộ cây phân cấp gây nhiều thời gian trễ, thậm chí không thể chấp nhận được
Việc chia sẻ tài nguyên giữa các bộ đệm không hiệu quả
Trang 32Khắc phục những hạn chế trên, mô hình bộ đệm phân tán cho phép phân bố các máy chủ uỷ quyền giữ khoảng cách với nhau một cách hợp lý về mặt địa lý Các bộ đêm được tổ chức theo nhiều phân nhóm (cluster) và không theo mô hình phân cấp cụ thể nào
Mô hình này được bố trí theo các thuật toán tối ưu hoá và có được
những ưu điểm sau:
Phân tán được vấn đề chịu tải cho server (chuyển về các bộ đệm uỷ quyền), sử dụng các bộ đệm riêng cho việc tải thông tin lên máy chủ và cho phép tải thông tin không trực tuyến (offline)
Lưu trữ các vết về vị trí, cho phép các máy chủ uỷ quyền định vị thông tin gần nhất một cách nhanh chóng
Sử dụng các bộ đệm trực tiếp để lưu trữ dữ liệu đang được trao đổi, tránh được trễ thời gian trong lưu trữ và chuyển tiếp thông tin
Việc lưu trữ các thông tin gợi ý về vị trí (lưu vết) cho phép một máy chủ xác định được máy chủ gần nhất có lưu trữ thông tin cần thiết Nhờ các thông tin gợi ý, các bộ đệm trong hệ thống có thể xác định được nhanh
Hình 1.10 : Mô hình bộ đệm phân tán
Internet
Mapping service
Trang 33chóng các bộ đệm không hoạt động, và có thể trao đổi trực tiếp với máy
1.2.2.6 T ạo bản sao sử dụng kỹ thuật đa phát (multicast)
Tạo bản sao sử dụng kỹ thuật Multicast để đẩy dữ liệu tới các máy chủ
dữ phòng (là bản sao của máy chủ gốc) Về bản chất, cơ chế tạo bản sao (replication) khác với cơ chể sử dụng bộ đệm (caching) là trong cơ chế tạo bản sao, dữ liệu được đẩy từ máy chủ gốc tới các máy chủ dự phòng khác Như vậy dữ liệu ở các máy chủ chính và máy chủ dự phòng là giống nhau Ngược lại, trong cơ chế sử dụng bộ đệm, khi có yêu cầu, các máy chủ uỷ quyền truy cập và lấy dữ liệu từ máy chủ gốc để lưu vào bộ nhớ cục bộ của mình Dữ liệu ở các máy chủ uỷ quyền là không hoàn toàn giống nhau
Kỹ thuật Multicast có thể ứng dụng theo hướng cần nâng cao tính hiệu quả hay tính tin cậy Kỹ thuật UDP/IP Multicast có hiệu quả cao nhất, tuy nhiên cần phải ứng dụng thêm nhiều giao thức khác để đảm bảo tính tin cậy
Các đối tượng chỉ có thể được lưu trữ tại các máy nhận khi nó đảm bảo còn nguyên vẹn Để kiểm tra tính nguyên vẹn, có thể dùng thuật toán “kiểm tra tổng” Nếu đối tượng được xác nhận là còn nguyên vẹn thì lưu trữ, ngược lại thì huỷ đối tượng Kỹ thuật này có tỉ lệ lỗi cao, chỉ cần một gói tin bị lỗi thì toàn bộ đối tượng bị coi là lỗi không được chấp nhận
Để nâng cao tính tin cậy, giao thức ACK/NACK được áp dụng để phát hiện các gói tin lỗi và truyền lại các gói tin này
Trang 341.2.2.7 S ự khác nhau giữa cơ chế Tạo bản sao (replication) và cơ
ch ế Bộ đệm (caching)
Các hệ thống bộ đệm
Giảm thời gian trễ do dữ liệu được truyền về gần với máy trạm
Chỉ hoạt động và lưu trữ đối tượng dữ liệu khi có yêu cầu từ máy trạm
Giảm nhu cầu chiếm đường truyền do chỉ lấy và truyền dữ liệu khi được yêu cầu
Không đảm bảo được tính nhất quán về dữ liệu
Có khả năng xảy ra các vấn đề về tính tin cậy do được thiết lập tại các điểm truy cập vào mạng Hệ thống bộ đệm bị hỏng có thể gây sập toàn bộ hệ
thống mạng
Các hệ thống tạo bản sao
Biết chính xác khi nào nội dung của đối tượng thay đổi và chuyển ngay đối tượng tới các máy chủ dự phòng Do vậy, nội dung đối tượng luôn
nhất quán tại các nơi khác nhau
Khả năng chịu lỗi và khôi phục dữ liệu cao do luôn có nhiều bản sao Các yêu cầu có thể được chuyển tiếp cho máy chủ khác nếu máy chủ gốc bị hỏng
Cho phép cân bằng tải giữa các máy chủ
Sử dụng nhiều dung lượng nhớ lưu trữ dữ liệu
Đòi hỏi các thuật toán cân bằng tải hiệu quả
Chiếm nhiều đường truyền nếu không có các thuật toán multicast tin
cậy
Trang 351.3 QUAN H Ệ GIỮA MÁY TRẠM VÀ MÁY CHỦ DỮ LIỆU
Phần này mô tả một số thành phần tham gia vào việc trao đổi giữa các máy trạm và máy chủ lưu trữ dữ liệu chính Những thành phần này được sử dụng vào việc xác định một máy chủ cung cấp dữ liệu tối ưu nhất
1.3.1 Định hướng lại địa chỉ URL (Uniform Resource Locator Redirection)
Một cơ chế đơn giản và thông dụng để kết nối giữa máy chủ và máy trạm là sử dụng giao thức HTTP, mã phản hồi 307 để tái định hướng địa chỉ
tạm thời Sau đó kết nối này sẽ quyết định giữ nguyên kết nối và cung cấp
dịch vụ hoặc chuyển kết nối sang một máy chủ khác
Vấn đề bảo mật:
Phụ thuộc hoàn toàn vào cơ chế bảo mật của giao thức HTTP
1.3.2 Định hướng lại tên miền (DNS redirection)
Hệ thống DNS cung cấp các chính sách kết nối giữa máy trạm và máy
chủ phức tạp và tin cậy hơn DNS sắp xếp các yêu cầu dựa trên chất lượng các dịch vụ Khi một máy trạm sử dụng tên máy chủ để truy cập, DNS sẽ xác định địa chỉ IP của máy chủ dự phòng hợp lý nhất để xử lý yêu cầu từ máy
trạm DNS cũng cung cấp khả năng cân bằng tải bằng cách phân tán các yêu
cầu tới các máy chủ một cách hợp lý
Vấn đề bảo mật:
Phụ thuộc hoàn toàn vào cơ chế bảo mật của DNS
Trang 361.3.3.Quan h ệ giữa các máy chủ (Replica to Replica Relationships) 1.3.3.1 T ạo bản sao theo lô (Batch Drive Mirror Replication)
Trong cơ chế này, các máy chủ cần cập nhật dữ liệu sẽ khởi tạo một kết nối tới máy chủ chính Giao tiếp giữa máy chủ chính và các máy chủ dự phòng được thực hiện theo hàng đợi Ngay khi kết nối được thiết lập, lô dữ
liệu sẽ được sao chép sang máy chủ dự phòng
V ấn đề bảo mật:
Phụ thuộc vào các chính sách bảo mật của các giao thức được sử dụng
để thiết lập kết nối và trao đổi dữ liệu FTP và RDIST là các giao thức thường được áp dụng hơn
1.3.3.2.T ạo bản sao theo yêu cầu
(Demand Driven Mirror Replication)
Trong cơ chế này, các máy chủ dự phòng sẽ có được dữ liệu cần thiết khi có nhu cầu Khi máy trạm có yêu cầu truy xuất dữ liệu, máy chủ dự phòng sẽ tìm kiếm trong dữ liệu cục bộ của nó Nếu không tìm thấy, nó sẽ thực hiện một kết nối tới máy chủ chính và lấy dữ liệu về
Trang 37có thể được thiết lập cho thực hiện theo khoảng thời gian xác định Từ mức
độ cao như thực hiện đồng bộ theo từng phút, đến mức độ thấp hơn như đồng bộ hàng giờ, hàng ngày,…
V ấn đề bảo mật:
Các giao thức được sử dụng đều ứng dụng các cơ chế bảo mật Keberos, RSA
1.4 K ẾT LUẬN
Công nghệ lưu giữ và cung cấp nội dung Web tại nơi gần người truy
nhập số liệu Web là một trong những giải pháp công nghệ ở mức ứng dụng,
gốp phần làm giảm thời gian truy nhập số liệu Web cho người dùng cuối cùng, hạn chế và tránh tắc nghẽn lưu lượng số liệu trao đổi trên mạng
Ưu điểm của Web caching :
Giảm bớt băng thông bởi việc giảm lưu lượng từ trình duyệt (browser) đến nội dung máy chủ
Giảm bớt tải trên Web server khi có nhiều yêu cầu gửi đến máy chủ
Truyền Web Object cho người sử dụng cuối cùng nhanh hơn
Giảm bớt băng thông và chi phí , nó có lợi ích cho người sử dụng, người cung cấp dịch vụ và người sở hữu Web site
Scalability: bộ đệm mạng có hàng nghìn Local server đối với nhu cầu nội dung lớn
Tăng cường chất lượng dịch vụ khi nội dung được chuyển đến băng thông cao hơn
Trang 38CH ƯƠNG 2
2.1 GI ỚI THIỆU CÁC KIẾN TRÚC CACHE
2.1.1 Ki ến trúc cache phân tầng – hierarchical cache
Hiệu năng của các cache proxy phụ thuộc vào số lượng client kết nối đến nó, càng có nhiều thuê bao sử dụng cache proxy thì xác suất để một trang Web đã từng được truy nhập trước đó, được lưu trong cache proxy càng cao Các hệ thống cache proxy được cộng tác với nhau để tăng tỷ lệ hit
Một trong những kiến trúc kết hợp các hệ thống cache với nhau là kiến trúc phân tầng Trong kiến trúc cache phân tầng, các hệ thống cache đặt ở nhiều tầng khác nhau của mạng Hệ thống cache phân tầng làm việc như sau
Tại cấp cuối cùng (đáy-bottom) trong kiến trúc phân tầng là các hệ thống cache client/browser (tính năng cache nằm ngày trong trình duyệt của người
sử dụng ) Nếu một yêu cầu không có trong cache của trình duyệt, yêu cầu này sẽ được chuyển đến cấp khu vực (institutional cache) Nếu nôi dung này vẫn không có trong tầng cache khu vực, yêu cầu về nội dung đó sẽ tiếp tục được chuyển tiếp đến hệ thống cache ở cấp vùng (regional cache) và đến lượt mình, hệ thống cache vùng sẽ tiếp tục gửi các yêu cầu chưa được đáp ứng đến hệ thống cache ở cấp quốc gia (national cache) Nếu nội dung này không được tìm thấy trong cache của hệ thống cache cấp quốc gia, hệ thống
Trang 39này sẽ kết nối trực tiếp với máy chủ chứa nội dung yêu cầu Khi nội dung yêu cầu được tìm thấy tại một cấp cache nào đó hoặc lấy tại máy chủ, nó sẽ được gửi trả lại cho thuê bao đó theo cấu trúc phân tầng và một bản sao của nội dung này sẽ được lưu lại tại mỗi cấp trung gian mà nó đi qua Các yêu cầu cùng một nội dung sẽ được chuyển tiếp lên các cấp cache khác nhau cho đến khi nó được tìm thấy tại một cấp độ cache nào đó Kiến trúc phân tầng khá phổ biến, phần lớn các nhà cung cấp dịch vụ Internet (ISP) và các doanh nghiệp đã triến khai hệ thống cache theo kiến trúc này để giảm băng thông trên mạng trục và giảm độ trễ hay tăng thời gian đáp ứng cho thuê bao Trong một cấu trúc như vậy, các trang web thông dụng có thể được lưu trữ phân tán tuỳ theo nhu cầu truy cập các trang web đó Tuy nhiên, vẫn còn tồn tại một số vấn đề liên quan đến mô hình cache phân tầng:
Để thiết lập một mô hình phân tầng như vậy, các máy chủ cache cần được đặt tại các điểm truy nhập chính trong mạng Điều này thường đòi hỏi
có nhiều sự phối hợp giữa các máy chủ cache tham gia vào hệ thống cache
Mỗi cấp trong mô hình phân tầng sẽ tạo nên thêm một thời gian trễ
Các hệ thống cache cấp cao có thể trở thành điểm nghẽn cổ chai (bottleneck) và có trễ lớn
Nhiều bản sao của cùng một nội dung được lưu dư thừa tại nhiều cấp
độ cache khác nhau
Trang 402.1.2 Ki ến trúc cache phân tán (Distributed cache)
Gần đây, nhiều nhà nghiên cứu đã đề xuất việc thiết lập một phương thức cache phân tán hoàn toàn, trong đó chỉ tồn tại các hệ thống cache ở một
cấp Trong các hệ thống cache phân tán không có các hệ thống cache trung gian ngoại trừ hệ thống cache ở cấp vùng Trong hệ thống cache này các máy chủ cache sẽ phục vụ các yêu cầu từ các máy chủ cache khác trong cùng một
hệ thống Để xác định xem cần phải lấy nội dung từ máy chủ cache nào, tất
cả các máy chủ này đều lưu trữ các thông tin meta-data để quy chiếu đến các
nội dung chứa trong các máy chủ cache khác Để tăng hiệu quả và mở rộng khả năng phân tán các thông tin meta-data giữa các máy chủ, người ta sử dụng cơ chế phân tán có tính phân cấp Tuy nhiên mô hình phân cấp chỉ sử
Hình 2.1 : Kiến trúc phân tầng của Web Caching