8 2.2 Mạng ngang hàng không có cấu trúc và tìm kiếm trong mạng ngarm hàne khône có cấu tr ú c ...9 2.3 Mạng ngang hàng có cấu trúc và tìm kiếm thòntí tin trone mạng ngaiiíỉ hànu có cấu t
Trang 1H à N ộ i - 2 0 0 8
Trang 2MỤC LỤC
DANH SÁ CH NHŨ>4G N GƯ ỜI T H A M GIA T H ự C HIỆN ĐÈ T À I 3
D A N H M Ụ C C Á C B Á N G BIÊU, HÌNH V Ê 4
T Ó M T Ắ T CÁC KẾT Ọ U Ả N G H IÊ N c ứ u CHÍNH CU A ĐỀ T À I 5
BÁO C Á O T Ô N G K É T 7
1 Đặt vấn đ ề 7
2 Tổng quan nghiên cứu về m ạng ngang hàng và tìm kiếm trong m ạng ngang h à n iỊ 8
2.1 Mạng ngang hàng lai ghép và tìm kiếm ihông tin tronơ mạng ngang hàng lai g h é p 8
2.2 Mạng ngang hàng không có cấu trúc và tìm kiếm trong mạng ngarm hàne khône có cấu tr ú c 9
2.3 Mạng ngang hàng có cấu trúc và tìm kiếm thòntí tin trone mạng ngaiiíỉ hànu có cấu t r ú c 10
3 Giai pháp tìm kiếm thông tin theo giá trị thuộc tính trên mạng ngang hàng có cấu trúc S M A V 12
3.1 Tổntỉ q u a n 12
3.2 Ánh \ ạ tên nội dung-khóa và Phân bô nội d u n g 13
3.3 Truy vấn thông t i n 17
3.4 Đánh eiá thuật to á n 19
4 Kết l u ậ n 24
TÀI LIỆU T H A M K H Ả O 26
PHU L U C 28
Trang 4D A N H M Ụ C C Á C B Ả N G B IẺ U , H Ì N H VẼ
Hình I : Mô hinh m ạng N a p ste r 8
Hinh 2 Mô hình truy vấn thông tin trên m ạng G n u te lla 9
Hinh 3 Định tuyến trong mạng C h o r d 10
Hinh 4 Mô hình phân bồ thông tin cùa giải thuật SMA V đề xu ất I 5 Hình 5 Ánh xạ khóa thứ c ấ p 16
Bảng I Báng ánh xạ khỏa phân bổ - nội dung thông tin 16
Báng 2 Bảng ánh xạ khóa thứ c ấ p 17
Báng 3 Báng ánh xạ khóa không phố biến 17
Hinh 6 Mô hình truy vấn thông tin trong giai thuật đề x u ấ t 18
Hình 7: Tỷ lệ phần trăm tần số xuất hiện 1 thuộc tính/giá t r ị 21
Hình 8: Phân bổ tên nội dung trong các n o d e 22
Hinh 9:Phân bô sô truy vân giữa các node trong m ạ n g 22
Hình 10: s ố ánh xạ sinh ra bói mỗi tên nội dung khi sứ dụng giái thuật S M A V 23
Hình I I : Thòi gian truy v ấ n 24
Trang 5TÓM TẮT CÁC KẾT QUẢ NGHIÊN c ứ u CHÍNH CỦA ĐỀ TÀI
Tên đề tài: ứ n g dụng mạng ngang hàng vào tìm kiếm và quán lý thông tin tài ntiu>ên Internet
M ã số đ ề tài: Q C 0 7 19
C h ú tri đề tài: TS N g u y ễ n H o à i S o n
Đ ơ n vị c ô n g tác: B ộ m ô n M ạ n g v à T r u y ề n th ô n g m á y tính, K h o a C ô n g n g h ệ th ô n g tin, T r ư ờ n g Đ ạ i h ọ c C ô n g n g h ệ - Đ H Q G H à N ội
- Đ ề tài dã tim h iêu các p h ư ơ n g p h á p tìm k iế m th ô n g tin trên m ạ n g n g a n g h a n g và đề ra
m ộ t íỉiải p h á p tim k iế m th ô n g tin th eo giá trị th u ộ c tính trên m ạ n g n g a n g h à n g có c ấ u trúc
- X â y dirng m ộ t c h ư ơ n íí trình m ô p h ỏ n g đ á n h giá h iệ u n ă n g và cân b ă n ẹ tai cua m ộ t uiao th ứ c m ạntỉ n c a n g h à n e có c ấ u trúc và m ộ t c h ư ơ im trình th ư n e h i ệ m ch o hệ thốntỉ tìm k iếm th ô n g tin th ư v iện trên m ạ n g n g a n g h à n g có c ấ u trúc
- 1 bài b á o cáo k h o a họ c tại H ội thao quốc gia lần th ứ XI "MOl số \'ấn đề c h ọ n lọc cua
C ô n g n g h ệ th ô n g tin \ à T m y ề n th ô n g ” , th án g 6 2008
K ế t q u á đ à o tạo:
- C ó 3 c ừ n h â n \'à 1 th ạ c sỳ tốt n g h iệ p tr o n g k h u ô n k h ô c ù a đề tài
Trang 6N â n g c a o n ă n g lự c c h u y ê n m ô n c h o c á n bộ b ộ m ô n tr o n g lĩnh \'ự c về các eiai
th u ậ t đ ịn h tu y ế n v à tìm k iế m th ô n g tin tr o n g m ạ n g n g a n g h à n g
Trang 7B Á O C Á O T Ố N G K É T
1 Đặ t vấn đề
S ự p h á t triể n n h a n h c h ó n g c ủ a In te r n e t đã tạ o ra c h o c h ú n g ta m ộ t c ơ hội lớn và
c ũ n g là m ộ t th á c h th ứ c lớ n t r o n g v iệc s ử d ụ n g các tài n g u y ê n th ô n g tin trê n In tern et
m ộ t c á c h h iệ u q u ả C á c tài n g u y ê n này b a o g ồ m các tài n g u y ê n m á v tín h n h ư C P U ,
bộ n h ớ , ồ lưu trữ, c ú a c á c m á y tín h nối m ạ n g , c á c tài n g u y ê n th ô n g tin n h ư các tra n g W e b h a y c á c C S D L lư u tr ữ th ô n g tin, c á c dịch vụ d ự a trê n nền W e b
Đ e kh ai th á c và s ử d ụ n g cá c tài n g u y ê n này m ộ t c á c h h iệ u q u a và h ọ p lý, v iệc q u a n
lý và tìm k iế m th ô n g tin các n g u ồ n tài n g u y ê n n à y ỉà m ộ t v ấ n đề rất q u a n trọiiíì Ví
d ụ n h ư đ ề m ộ t ứ n g d ụ n g v ề tín h to á n lưới ( G r id c o m p u t i n g ) sử d ụ n g đ ư ợ c m ộ t lượiiíí tài n g u y ê n lớn tín h to á n và lưu tr ữ th ô n g tin, c ầ n phai c u n g c ấ p c h o nó các th ô n g tin
về n h ữ n g tài n g u y ê n tín h to á n trê n In te rn e t m à nó có th ê s ử d ụ n e đ ư ợ c H a y m ộ t ứno,
d ụ n g về W e b s e r v ic e s c ầ n đ ư ợ c c u n g c ấ p đ ầy đ u các th ô n g tin về các d ịch v ụ W e b liên q u a n m à nó có thế tru y c ậ p đ ư ợ c N g ư ờ i d ù n g c ũ n g m o n g m u ố n đirợc c u n g c ấ p
tự d ộ n g các t h ô n g tin cần thiết liên q u a n đến sớ th íc h , n h u c ầ u và tù y th u ộ c v à o điều kiện và h o à n c á n h c ú a họ
T u y n h iê n , với đ ặ c đ i ể m là lư ợ n g tài n g u y ê n trên In tern et là rất lớn và p h â n tán ở
k h ắp nơi nên n ế u q u ả n lý cá c tài n g u v ê n n à y th e o n h ữ n g c á c h th ô n g t h u t m g n h ư sư
d ụ n g các C S D L tậ p tr u n g thì c h i phí p h á t s in h sẽ rấl lớn kh ả n ă n g x ư lý th ỏ im tin hạn c h ế v à m ứ c đ ộ c h ố n g c h ịu lồi k h ô n g cao
V ấ n đ ề n à y có th ế đ ư ợ c g iải qiivết b ằ n g c á c h s ư d ụ n g c á c g ia o th ứ c c u a m ạ n g
n g a n g h à n g đ ể q u ả n lý và tìm k iế m th ô n g tin về tài n g u y ê n Internet M ạ n g n g atm
h à n g ra dờ i t ừ c u ô i n h ữ n g n ă m 1990 với ứ n g d ụ n 2 b a n đ â u là c h i a xe file n ganií h à n g
và đ ư ợ c n g ư ờ i d ù n g s ử d ụ n g r ộ n g rãi, M ạ n g n g a n g h à n g k ế t nối các m á y tín h có k h a
n ă n g c h ia xé tài rm u v ê n và tậ n d ụ n g các tài n g u y ê n c h ia x e đó tr o n g lưu trừ tín h toán,
t r u y ề n th ô n g , N h ữ n g ư u đ iế m lớn c ú a m ạ n g ngant! h à n g b a o tỉôm: tíiih p h â n tán tín h tự tô c h ứ c v à k h a n ã n e tậ n d ụ n g tài n g u y ê n C á c ứ n g d ụ n g c h ia xé file n g a n g
h à n g n h ư N a p s t e r G n u te lla K a Z a A , B itT o r r e n t đ ã tậ n d ụ n g đ ư ợ c tài n g u y ê n lư u trừ th ô n g tin và b ă n g t h ô n g c ủ a c á c m á y tín h P C n g ư ờ i d ù n g đ ê luii trữ và c h ia xe íìle
C á c ím g d ụ n g n à y đ ã đ ư ợ c s ư d ụ n g r ộ n g rãi v à trơ thàrih c ô n g c ụ h ĩ m ích c h o n h iê u
ng ư ờ i
D o đ ó n iỉh iê n CÚII v ề v iệc s ư d ụ n g m ạ n g n s a n e h à n g tr o n g v iệ c tìm k iê m v à q u a n
lý th ô n g tin tài n g u y ê n In te r n e t là hêt sứ c c â n th iêt v à có kJia n ă n g ứ n g d ụ n g v à o th ự c liễn cao
B á o c á o đ ề tài sẽ tậ p tr u n u trình b à y cá c giái p h á p tìm k iế m th ò n g tin d ự a trên
c ộ n g n g h ệ m ạ n g n g a n g h à n g b a o g ồ m tìm k iê m t h ô n g tin trê n m ạ n g n g a n g h à n g lai
g h é p , tìm k iế m th ô im tin t r o n g m ạ n g n g a n g h à n g k h ô n g c ó c â u trúc và tim k iê m
th ô n g tin trên m ạ n g ntzarm h ù n g có c ấ u trúc Bài b á o c á o c ũ n g đi s â u trìn h bày các
v ấ n đ ề c ò n tồ n tại t r o n e tìm k iè m n â n g c a o đôi với c á c k ỹ t h u ậ t tìm k iê m d ự a trên
m ạ n g n g a n g h à n g c ó c ấ u trú c v à đ ư a ra m ộ t giai p h á p tìm k iế m th e o th u ộ c tính G iái
Trang 8t h u ậ t c ú a c h ú n g tôi đ ả m b ả o tín h h iệ u q u à t r o n g v iệ c tìm k iế m t h ô n ^ tin th e o từ k h ó a
tr o n g m ạ n g n g a n g h à n g c ó c ấ u trú c c ũ n g rửiư đ a m b á o tin h c â n b à n g tai (load
n h a u th e o m ộ t c ấ u trúc n h ấ t địnli n h ư m ạ c h v ò n g h o ặ c k h ô n s gian n -c h iề u và
p h â n bổ, đ ịn h t u y ế n th ô n g tin d ự a trê n các c ấ u trú c này
2.1 M ạ n g n g a n g h à ng lai ghé p và tìm kiếm t h ô ng tin trong mạ ng n ga n g hàng lai ghép
T r o n g m ạ n g n g a n g h à n g lai g h é p , d iê n h ìn h là N a p s t e r [ l ] tài n y u y ê n đ ư ợ c p h ân tán tại n h iề u n o d e k h á c n h a u Iiliưng lồn tại m ộ t iTiủv c h u in d ex luxi g iừ th ô n g tm vẻ
n o d e và tài n g u y ê n lưu g i ữ tại m ỗ i node Đ ê c h ia \ é tài ntỉu y ên thôníí tin các n o d e tro n g m ạ n g sẽ g ứ i t h ô n g tin về tài n g u v ê n lưu g iữ ơ n o d e cu a m ìn h vê IIKÍ) chu Cụ thể với m ạ n g c h ia xe file n g a n g h à n g N a p ste r, tên file sẽ đ ư ợ c gứi vê má> c h u index
V iệ c tru y v ấ n th ô n g tin sẽ đ ư ợ c th ự c hiện th e o hai b ước:
- B u ớ c tru y v ấ n ihôns, tin về tài n g u y ê n tại má>' c h u in d e x đẽ biêl ih ỏ n e tin \ ê các
n o d e lưu g i ữ tài n g u y ê n c â n tìm kiêm
- B ư ớ c tru y c ậ p trự c tiế p tài n g u y ê n tại n o d e k a i y iữ tài n g u y ê n d ự a trên th ô n g tin
M ô h in h m ạ rm r m a n a h à n g lai g h é p có ư u đ iê m là c ó thê g ia m tai c h o má> c h u so
v ớ i m ô h ìn h m á v c h u - k h á c h tr u y ê n th ô n g T im k iê m th ô n g tin d ự a trê n m ô h ìn h
Trang 9m ạ n g n g a n g h à n g lai g h é p đ ư ợ c th ự c h iệ n tậ p tr u n g n ê n đ ơ n g ià n v à h iệ u qua Tu>’
n h iê n , n h ư n g m ạ n g n g a n g h à n g lai g h é p c ó n h ư ợ c đ iê m là k h ả n ă n g m ơ r ộ n g k é m và
m á y c h ủ in d e x t r ở t h à n h đ i ể m y ế u d ễ bị tấ n công
2.2 M ạ n g n g a n g h à n g kh ôn g có cấu trúc và tìm kiếm trong m ạ n g n g a ng hàng
k h ô n g có cấu trúc
V ớ i m ạ n g n g a n g h à n g lchông có c ấ u trúc n h ư G n u te lla [ 2 ] , k h ô n g tồ n tại má>- chu
in d ex m à th a y v à o đ ó , cá c n o d e tạ o n h iề u Hên kết trực tiếp V Ớ I n h a u n h ư n e k h ô n e
th e o m ộ t q u y lu ật n h ấ t đ ịnh M ộ t nú t t r o n g m ạ n g th ự c h iện truY vấn b ã n g c á c h phát trà n t h ô n g b á o tr u y v ấ n đ ế n các nú t x u n g q u a n h v à c á c nú t n à y sẽ tiếp tục phát tràn
đ ến c á c nú t h à n g x ó m C á c n o d e n h ậ n đ ư ợ c th ô n g b á o truy vấn sẽ tìm k iế m tr o n c d ữ liệu c ủ a m ìn h x e m c ó t h ô n g tin c ầ n tìm k iế m h a y k h ô n g N ế u có t h ô n g tin c ầ n tìm
k iế m sẽ đ ư ợ c gứi tr ả về c h o n o d e tìm k iế m (H ìn h 2)
K iaoi Hc-AStLơrrtcrKs
T h e file t r a n ĩle r lo a d is d is trib u te d
b e t w e e n th e c o m p u le f s e x c h a n g in g tiles, b u t file s e a r c h e s a n d tran sfers
t io m y o u ( c o m p u t e r to o th e rs c a n
c a u s e b o ttle n e c k s ^
3 1 ' ,i v C : o ' ’i p j t j r s
H ìn h 2 M ô h ìn h tru y v ấ n th ô n g tin irên m ạ n g G n u te lla
V iệ c tim k i ế m t h ô n e tin th e o k iể u p h á t trà n th ô n g b á o tru y v ấ n g ã y ra s ự lãng phí
b á n g t h ô n g trên m ạ n g v à lã n g phí tài n g u y ê n c u a các m á y tín h tro n g m ạ n g N g o à i ra, khi số lư ợ n g n o d e t r o n g m ạ n g tăng, do k h ô n g thê g ư U h ô n g tin truy \ ân đ ê n to à n
m ạ n g đ ể h ạ n c h ế số lượne, t h ô n e b á o p h á t tràn n ê n v ẫn có k h a n à n g th ô n g tin có
t r o n g m ạ tm n h ư n g k h ô n g đ ư ợ c tìm thây
K a Z a A [3J cai tiến giái th u ậ t tìm k iê m p hat trà n b ă n g c á c h th iẻt lập các
s u p e r n o d t' d ó im vai trò lưu g iữ th ô n g tin tcìi n g u y ê n c u a các n o d e kêt nôi đên V iệc tìm k iế m t h ô n c tin sẽ d ư ợ c th ự c h iệ n dụra trẽn \ iệc p h á t trà n th ô n g b á o t r u \ vân đ è n
c á c s u p e r n o d e Đ iề u đ ó g iú p c h o việc giới h ạ n sô lư ợ n g c á c t h ô n g b á o p h á t trà n c ũ n g
n h ư n a n g c a o x á c su ấ t tìm k iế m đ ư ợ c th ô n g tin Đ ê c h ô n g lại h iệ n tư ợ n g n g ư ờ i d ù n g chi n h ậ n m à k h ô n g c h ia x e tài n g u y ê n (c ò n gọi là " fre e - rid e r ■■) B ilT o r e n [ 4 ] cai liên
c á c h th ứ c tái d ữ liệu c h ia \ e băn ti c á c h c h ia n h o d ữ liệu t h à n h cá c p h â n nho và p h â n
Trang 10b ô tại n h iê u n o d e t r o n g m ạ n g K h i m ộ t n g ư ờ i d ù n g A tai cá c m a n h d ữ liệu về má>
m ìn h , đ ô n g th ờ i sẽ có n h iề u n g ư ờ i d ù n g k h á c c ó th ề tai c á c m à n h d ữ liệu đ ã đ ư ợ c tai
v ê từ m á y c ủ a n g ư ờ i d ù n g A. N g o à i ra c ò n có m ộ t số cai tiến n h ư tạo c á c b a n sa o d ữ liệu, tạ o Hên k ê t g i ữ a c á c n o d e có c h ứ a nội d u n g c ù n g m ộ t c h ủ đề
2.3 M ạ n g n g a n g h à ng có cấu trúc và tìm kiếm t hông tin trong m ạ n g n ga ng hàng
có cấu trúc
M ạ n g n g a n g h à n g có c ấ u trúc s ừ d ụ n g giai th u ậ t B a n g b ă m p h â n tán (D is trib u te d
H a s h T a b le - D H T ) đ ế to c h ứ c các nú t m ạ n g th e o m ộ t c ấ u trúc k h ô n g gian k h ó a nhất
đ ịn h n h ư m ạ c h v ò n g (g iai th u ậ t C h o rd [5 ] , giai th u ậ t P a s try [6 ] ) h a y k h ô n g g ian n-
c h iê u (g iái th u ậ t C A N [7]) M ỗ i n o d e tro n g m ạ n g p h ụ irác h m ộ t p h ầ n cu a k h ô im uian
k h ó a và liên k ế t vớ i n h a u th e o vị trí trê n k h ô n g g ia n k hóa, C ác th ô n g b áo trên m ạ n u
n g a n g h à n g có c â u trú c có địa chi là m ộ t k h ó a k và sẽ đ ư ợ c đ ịn h tu>'ến đ ế n n o d e phụ trác h k h ó a k n à y d ự a trên các liên kết tronti k h ô n iỉ g ia n k h ó a cù a các node
Ví dụ với g ia o th ứ c C h o r d , các n o d e đ ư ợ c p h â n b ô v ào m ộ t k h ô n g g ia n k h ó a kiêu
m ạ c h v ò n g , t r o n g đ ó m ỗ i n o d e d u v trì các liên kết đ ế n c á c n o d e ơ c á c h nó n h ữ im
k h o a n g c á c h n h ấ t d ịn h tr o n g k h ô n g g ia n k hóa C ác liên kết này tạo n ê n b a n g định
tu y ế n (gọi là B ả n g fin g er) ớ m ỗi n ode, M ộ t th ô n g h áo t r o n g m ạ n g C h o r d sẽ dư ợ c
đ ịn h t u y ế n d ự a v à o b a n g fin g e r tại niỗi n o d e m à th ô n g b áo đi qua H ìn h 3 b iêu diền
P:-Po P.I : » <1 Ị p' Íp :^ 32 P'-V
c a o h iê u q u a tr o n g v iệc đ ịn h t u \ è n các gỏi tin th ô n g b á o v à có độ k h á n ụ lỗi tốt Vi
d ụ vxVi tiiao th ứ c C h o r d , sô lư ợ n g liên kèt với c á c n o d e k h á c m à m ô i n o d e phai du_\ iri
Trang 11là O ( l o g N ) v à c h i ph í đ ể đ ịn h tu y ế n m ộ t th ô n g b á o là O ( l o g N ) h o p s với N là số n o d e
t h a m g ia m ạ n g ,
T r o n g m ạ n g n g a n g h à n g có c ấ u trúc, m ộ t n o d e p h â n b ổ m ộ t nội d u n g th ô n g tin (ví d ụ n h ư m ộ t file h o ặ c m ộ t á n h x ạ g iữ a tê n file \'à địa chi m á v tính có c h ứ a file)
v à o m ạ n g b ằ n g c á c h tạ o k h ó a k là g iá trị b ă m c ú a m ộ t đặc trư n g c u a nội d u n g th ô n g tin (gọi là t ê n nộ i d u n g ) N ộ i d u n g th ô n g tin sa u đ ó sẽ đ ư ợ c p h â n hô đ ế n nú t p h ụ trá c h k h ó a k t h ô n g q u a việc đ ịn h t u y ế n th eo giải th u ậ t D H T
T i m k iế m t h ô n g tin tr o n g m ạ n g n g a n g h à n g có c ấ u trúc đ ư ợ c th ự c hiện b ằ n a c á c h tạo k h ó a tìm k iế m k t ừ tê n nội d u n g và đ ịn h t u y ế n th ô n g b á o tru y v ấ n đ ế n n o d e p h ụ trá c h k h ó a k. N o d e p h ụ trá c h k h ó a k sẽ trả về kết q u a tim kiếm n ế u có
So vớ i c á c h th ứ c tim k iế m th ô n g tin t r o n g m ạrm n g a n g h à n g k h ô n e có c ấ u trúc , việc tìm k iế m t h ô n g tin t r o n g m ạ n g n g a n g h à n g có c ấ u trúc d ư ợ c th ự c h iện với chi I
phí ít h ơ n rất n h iề u d o số t h ô n g b áo tối đa c ầ n gứi chi là 0 ( ! o e N ) th ô n g b á o N e o à i
ra n ế u th ô n g tin c ó t ồ n tại trên m ạ n g thì xác suất tìm th ấ y th ô n g tin sẽ rất cao I
T u y n h iê n , giái th u ậ t D H T chỉ h ỗ trợ tìm k iế m k h ó a c h ín h xác ĩứ c là tìm k iế m nội
d u n g th ô n g tin g ắ n với m ộ t k h ó a k n à o đó, tro n g khi rất n h iề u ứ n g d ụ n g [8.9.10] đòi hỏi việc tim k iế m n â n g c a o n h ư tim k iế m th e o k h o á im 111,12], tim k iế m th e o các giá trị th u ộ c tín h [1 3 -1 6 ], tìm kiếm uần đ ú n g [12], Đ ã có n h iề u n g h iê n c ứ u \ ê tim
k iế m t h ô n g tin trên m ạ n g n g a n u h à n g có c ấ u trúc n h ă m tim aiái p h á p n â n g c a o kha ’
n á n g tìm k iế m d ồ n g thời đ ả m bao tính h iệ u q u a c ũ n u n h ư kh á n ă n g m ơ rộ n g cu a hệ thống
Đ ề tài n g h iê n c ứ u Q C 0 7 19 tậ p tru n g v ào k ỹ th u ậ t lìm kiêm th ô n g tin th e o giá irỊ
th u ộ c tín h tr ê n m ạ n g n g a n g h à n g c ó c ấ u trúc I N S / T \ v i n e [ l 3 J đ ư a ra m ỏ hình hệ
th ố n g tê n m i ề n d ịc h v ụ x â y d ự n g trên m ạ n g t m a n e hànt» c ó c â u trúc với tên m iên dịch
vụ là m ộ t c â v t h u ộ c tính /tiiá trị p h â n tâng M ô i tê n m iê n d ịc h v ụ đ ư ợ c á n h xạ vào niộl
tậ p h ợ p c á c k h ó a là íỉiá trị b ã m củ a các n h á n h c u a tên m iên M ặ c dù I N S /T \v in e hó trợ tìm k iế m th e o từ n g p h ầ n ứ n g với các n h á n h c u a tẻn m iên , n h u n g \ iệc tìm kiêm sẽ
k h ô n g th ự c h iệ n đưcrc vớ i c á c tru v v ân kh ô n Ẹ th u ộ c c á c n h á n h cu a tê n m iên N g o à i ra,
hệ th ố n g I N S / T w i n e k h ô n g đ ả m b áo tín h 4 ^ b ă n g tai g iữ a các n o d e d o các n o d e p h ụ trá c h các g ia trị- th u ộ c tín h p h ố b iế n sẽ ph ai ch ịu tai \ ẻ lư u g iữ d ữ liệu và tru>' v â n lớn,
G iá i p h á p C D S [ 1 4 ] c ũ n e s ử d ụ n g cá c c ặ p th u ộ c t í n h giá trị đê đ ịn h d a n h nội d u n g
c ầ n c h ia xe T u y n h iê n , k h á c vớ i I N S / T w i n e C D S tạ o n h iê u k h ó a c h o m ộ t nội d u n g
từ m ồ i c ặ p g iá tr ị- th u ộ c tin h t r o n g tên m iề n v à p h â n bỏ t h ô n g tin về nội d u n g đến các
n o d e p h ụ tr á c h c á c k h ó a đó, N h ư vậy khi tru y \ ấn nội d u n g C D S chi s ừ d ụ n g m ộ t
c ặ p tĩiá trị-n ộ i d u rm đế tạo klió a truy v ấ n v à t a i y v ấ n đ ế n n o d e p h ụ trá c h k h ó a đó
C D S c ù n g đ ề ra giai p h á p tạ o M a trận C â n b ă n g T ai ( L o a d B a la n c in g M a tr ix - L B M )
dế giai quyế t vấn đề cân b à n e tai Tu y nhiên giai pháp C D S Tạo nhiêu d ư thừa trong
v iệ c q u a n lý L B M c ũ im n h ư d ư th ừ a tro n g liru g iữ d ữ liệu và tru y \ ân
( ìia i p h á p D a ta ln d e x ir m [ 1 5 ] tạo các k h ó a p h â n b ỏ từ cá c n h á n h t ừ nú t n g ọ n tới núl
u ố c c ù a c â y m ô ta d ữ liệu và lưu ííiìr á n h xạ g iữ a c á c k h ó a p h â n bò nà\- tại cá c n o d e
p h ụ trá c h c á c k h ỏ a p h à n b ò c u a m ạ n g n g a n g h à n g c ó c à u trúc, G iai p h á p n à \ ch o
p h é p lưu g i ữ th ô im tin với số lư ợ n g ban sa o nho tu> n h iê n chí phí tìm k iê m th ò n g tin
sẽ rất lớn d o ph ai th ự c h iệ n n h iề u tru y v â n từ nút n g ọ n tới nú t gôc
T r o n g n g h i ê n c ứ u [16], cá c tác g iá đ ề x u â t giai p h á p lựa c h ọ n các k h ó a p h â n b ô sao
c h o số lư ợ rm nộ i d u n u p h â n b ô ứ n u với m ôi k h ó a p h â n bô n ă m tro n g m ộ t eiớ i h ạn
Trang 12n h ấ t đ ịn h Đ ề x u ấ t n à y m ặ c d ù h ạ n c h ế đ ư ợ c số lư ợ n g k h ó a p h â n bồ c ù n ơ n h ư số
lư ợ n g nộ i d u n g t h ô n g tin g á n c h o m ỗ i k h ó a n h u n g k h ô n g c h o h iệ u q u a c a o tro n g tim
k iê m th ô n g tin d o v iệc tim k iế m th ô n g tin sẽ ph ài th ự c hiện q u a n h iề u bước
3 Giải p h á p tìm kiếm t h ông tin theo giá trị thuộc tính trên mạ ng n ga ng hà ng có
cấu trúc S M A V
l ư ở r r g c ^ f nli c ùa giải th u ậ t c ú a c h ú n g t ^ là p h â n bổ nội d u n g t h ô n e tin th eo các
k h ó a p h â n b ô c h i n l T i J g m l r r M r r r c L i a các c ặ p th u ộ c tín h /g iá trị có tro n g tên nội dung
N ê u sô lư ợ n g nội d u n g t h ô n g tin g ắ n với m ộ t k h ó a p h â n bô c h ín h lớn h ơ n m ộ t liiứi ọ
hạn n h â t clỊnh thì nộ i d u n g th ô n g tin sẽ đ ư ợ c p h â n bô th e o c á c k h ó a th ứ c â p đ ư ợ c sinh
ra từ các c ặ p t h u ộ c tín h /g iá trị k h á c có tro n g lên nộ) dung Á n h xạ g iữ a k h ó a p h â n bô
chíiih v à k h ó a t h ứ c ấ p đ ư ợ c lull lại để đ ả m b á o clio việc tìm k iế m th ô n u tin đưọ'c >
n h a n h c h ỏ n g và đ ầ y đu
V iệ c tim k iề m th ô iig tin sẽ d ự a trê n các c ặ p th u ộ c tín h /g iá trị trorm c â u truy vấn
N ế u tr o n g c â u tru y v ấ n có các c ặ p ih u ộ c tín h /g iá trị k h ô n g p h ố biến, kết q u a truy vấn
sẽ được trả về bới node phụ trách một trong các cặp thuộc tinh/giá trị đó N ế u k h ò n ”
c ó, v i ệ c t i m k i ế m t h ô n g tin s ẽ đ ư ợ c t h ự c h i ệ n tại n o d e p h ụ t r á c h c ặ p t h u ộ c t í n h / g i á li'Ị
phố biến và c á c n o d e p h ụ trá c h các k h ó a th ứ c ấ p t ư ơ n e ứrm C ác k h ó a th ứ cấ p dư ợ c
tim k iế m là g iá trị b ã m c ủ a c á c c ặ p th u ộ c t ín h /a iá trị có troim c â u truy \'ấn và với số
lư ợ n g c ặ p th u ộ c tin h /g iá trị tă n g d ầ n ch o đ ế n khi tim d ư ợ c hết các n o d e có k h a n ănu
c h ứ a t h ô n g tin c ầ n tim k iếm
T r o n g giai p h á p c u a c h ú n g tôi, m ỗ i nội d u n g th ô n u tin sè đ ư ợ c đ ịn h d a n h bưi m ộl ^tên n ọ ĩ d u n g là tậ p c á c c ặ p th u ộ c tính/Q.iá trị m ô ta nội duniỉ thôntí tin V iệc sư dụnti 1
c á c c ặ p t h u ộ c tín h /g iá trị đ ả m b a o c h o k h à n ă n g b iê u d iễ n nội d u n g thôrm tin d ư ợ c
c h ín h x á c v à dễ d à n g t h ô n g q u a k h ả n ẳ n g b iể u d iễ n n ạ ữ n ụ h ĩa cu a các oiá trị thuộc
tín h t r o n g tê n n ội d u n g V í dụ n h ư tên nội d u n g th ô n g tin v ề m ộ t c u ố n sách có thê
đ ư ợ c b iế u d iễ n n h ư d ư ớ i đ â \ ’
(tên s á c h = ’' A ” , tác íỉiả= ’'B ''.n lià x uất b ả n - ' C " n ă m p h á t h à n h = " D " giá == "H"
p h â n loại = “ F ” )
tr o n g đ ó các t h u ộ c tín h đ ã đ ư ợ c đ ịn h n g h ĩa trước
T r u y v ấ n t h ô n g tin sẽ d ự a trên c á c c ặ p th u ộ c tín h /g iá trị tro n g đó c â u tru y \'ân sẽ
c h ứ a m ộ t tậ p c á c c ặ p th u ộ c tínlV eiá trị c â n tr u \ \'ân K ê t q u a tìm k iê m tra vê sẽ là các
nội d u n g t h ô n g tin với tên nội d u n g có c h ứ a c á c c ặ p ih u ộ c tin h /g iá trị c â n truy vân
sè tìm k iế m nội đ u n e thôrm tin \ ề sá c h th u ộ c p h â n loại F c u a n h à \ u à t b a n c
N ộ i d u n g t h ô n c tin sẽ b a o u ồ m c á c th ô n g tin chi ticl liên q u a n đ ê n th ô n t: tin, N ế u
t h ô n g tin là file d ữ liệu thi nội d u n u t h ô n c tin c ó thê là đ ư ờ n a link đ é n nơi lưu íiiữ
file dĩr liệu đó
12
Trang 13C á c n o d e lưu trừ tê n nội d u n g v à nội d u n g th ô n g tin sẽ tạ o t h à n h m ộ t m ạ n o n ea nti
h à n g c ó c ấ u trú c d ự a trê n m ộ t giao th ứ c D H T n h ư C h o r d , C A N , C á c th ô n g báo
p h â n b ô t h ô n g tin v à tru y v ầ n t h ô n g tin g ử i g iữ a c á c n o d e đ ư ợ c đ ịn h t u y ế n th e o địa chi là c á c k h ó a v à d ự a trê n b á n g đ ịn h tu y ế n luiỉ tại m ồi node
V iệ c p h â n bô nội d u n g th ô n g tin sẽ đ ư ợ c th ự c h iệ n d ự a trên việc á n h xạ tên nội
d u n g v à o k h ó a p h â n bô v à nội d u n g t h ô n g tin sẽ đ ư ợ c gửi đ ế n n o d e p h ụ trá c h k h ó a
p h â n bô G iả i p h á p á n h x ạ k h ó a c ủ a c h ú n g tôi là tạo k h ó a p h â n bô c h ín h từ m ỗi cặ p
th u ộ c tín h /g iá trị t r o n g tê n nội d u n g , D o c ó n h ữ n g c ặ p th u ộ c tínlVgiá trị p h ô b iế n nẻn
đê tránh tình trạng quá tải cho các node phụ trách các khỏa phô biến, các node này sẽ
chi lư u m ộ t p h â n nộ i d u n g t h ô n g tin gán với k h ó a p h ô biến, p h ầ n c ò n lại sẽ đ ư ợ c liai tại c á c n o d e k h á c d ự a trên c á c k h ó a th ứ cấp C ác k h ó a th ứ c ấ p lá giá trị b ăm c u a hơn hai c ặ p th u ộ c tín h /g iá trị có tr o n g tên nội d u n g đ ư ợ c p h â n bô N o d e p h ụ trá c h k hóa
p h ô b iê n sẽ lư u lại á n h x ạ g iữ a các k h ó a p h ân bô và k h ó a th ứ c ấ p đé đ a m bao các
th ô n g b á o tru y v ấ n th ô n g tin sẽ đ ư ợ c gửi đ ế n tất cã các n o d e có kh á năniz c h ứ a t h ô n c tin c ẩ n tim
G iai p h á p n à y có c á c ư u điếm :
- V ớ i các c ặ p t h u ộ c tínJì/giá trị k h ô n g p h ô biến, d o số lượntí nội d u n u ihònii tin tĩán
v à o m ô i c ặ p th u ộ c tínlVgiá trị đ ó k h ô n g lớn n ê n c h ú n c sẽ d ư ợ c lưu tại m ột n o d e và truy vấn đ ế n c á c c ặ p th u ộ c tín h /g iá trị k h ô n ụ p h ô biến sẽ chi c ầ n th ự c hiện irên m ộl
n o d e với m ỗ i tru v van Đ iề u n à v đ á m b ão c h o lính h iệ u q u ả tro n g việc lìm kiếm
- V ớ i các c ặ p t h u ộ c tín h /g iá Irị phô biến, do số lư ợ n g nội duníz th ô n u tin uán v áo mồi c ặ p th u ộ c tín li/giá trị đó là lớn nên c h ũ im sẽ dirợc lưu tại n h iều nơde s ố krợ nu nội d u n g t h ô n g tin càntỉ lớn thi số n o d e k m c i ữ th ô n u lin c à n g lớn Đ iề u nầy d a m bao
c h o tính c â n b a n g tai c u a hệ th ố n c V ớ i c â u lru>' v ấ n cliứa n h iề u c ặ p th u ộ c tính/iiiá tri
p h ô biến , v iệc tr u y v ấ n sẽ đ ư ợ c th ự c h iện trên n o d e p h ụ trách k hóa p h â n bỏ c h ín h và
C á c m ụ c tiế p th ẹ o sẽ trìn h b à y chi tiết c á c h th ứ c á n h xạ k h ó a và p h â n bô nội duníí
c ũ n e n h ư c á c h th ứ c tìm k iế m th ô n g tin tr o n g hệ th ô n g c u a c h ú n g tôi
3.2 Á n h xạ tên nội d un g - k h ó a và Phân bố nội du n g
Đ ể đ ả m b á o tín h c â n bằn tỉ tai g iữ a c á c n o d e và tín h h iệ u q u a \'à c h ín h xác trontĩ tìm
k iế m t h ô n c tin, c h ú i m tôi đề x u ấ t eiai th u ậ t áiili x ạ tệ n _ m ie n - k h ó a \'à p h â n b ô nội
D è d á m b á o c á c _\'êu c ầ u trên , uiai th u ậ t á n h \ ạ tên n i iê n - k h ó a \ à p h â n bỏ nội d u n u
c ù a c h ú n g tôi đ ư ợ c th ự c h iệ n th e o cá c b ư ớ c n h ư sau
B a n đ ầ u tê n nội d u n g c u a m ộ t nội d u n g t h ô n g tin d ư ợ c á n h xạ th à n h n h iề u k hóa,
m ỗ i k h ó a là g iá trị b ã m c u a m ộ t c¿ip th u ộ c tin h -g iá tri c h ứ a tr o n g tên m iề n nội d u n e
Trang 14t h ô n g tin V i ệ c s ừ d ụ n g h à m b ă m sẽ đ ả m b ả o các k h ó a đ ư ợ c p h â n b ố đ ề u tr o n a to à n
m i ê n k h ô n g g ia n k h ó a
V í d ụ , g iả s ử tê n m i ề n c ủ a m ộ t nội d u n g th ô n g tin có c h ứ a N c ặ p th u ộ c tín li'g iá trị
và đ ư ợ c k ý h iệ u là ((ai,Vi), (a2,V2), (aN,v^>)) K hi đó, nút m u ố n p h â n bỏ nội d u n g
• S ố lư ợ n g n ộ i d u n g t h ô n g tin đã gán với k h ó a k,¡ nho h ơ n m ộ t số lư ợ n g Nmax đ ư ợ c
d ịn h trư ớ c T r o n g tr ư ờ n g h ọ p này k h ó a Ấ:,ysẽ trơ th à n h k h ó a p h â n bô và đ ư ợ c eọi
là k h ó a p h â n bố k h ô n g p h ổ b iế n (v iết tất là k h ó a k h ô n g p h ố biến)
• S ố lư ợ n g nội d u n g th ô n g tin đã g á n với k h ó a k,! lớn h o n ho ặc b à n e Nmax- T r o n u
thông báo ph ân bổ thông tin irực tiếp đến node n,¡.
V ớ i m ỗ i k h ó a p h ổ b iế n n o d e p h â n bô th ô n g tin sè tạ o các kJióa th ứ c ắ p là uiá trị
b ăm c ủ a c ặ p t h u ộ c t í n h /2.iá trị phố biến ứ n g với kj \ à từ n g căp thuộc tín h /e iá trị phô
b iến khác C á c k h ó a t h ứ c ấ p này đ ư ợ c gọi là cá c k h ó a th ứ c â p bậc 2 (ứ n g \ ới hai c ặ p
t h u ộ c tín li/g iá trị), N ế u số lưạne, các c ặ p th u ộ c tín h /g iá trị p h ô b iế n là x ' thì số k h ó a
t h ứ c ấ p b ậ c 2 sẽ là X ' (X ' -1 )/2 k h ô n g tr ù n g n hau
D o s ố lư ợ n g nộ i d u n g t h ô n a tin đã íỉán với các k h ó a th ứ c ấ p c ũ n g có thê lớn h ơ n
hoặc bằng Nmax nên với mỗi khóa t hứ cấp bậc n (ứng với n cặp t huộc tínlx^giá trị n >
2), c á c b ư ớ c s a u sẽ đ ư ợ c th ự c h iệ n đê x á c địnli klióa p h â n bô c h o m ô i nội d u n g th ô n gtin
- B u ’ó'c 1 N o d e p h â n b ố t h ô n e tin sẽ gửi th ô n g báo tru \' v ấ n số lưọTig đ ế n c á c n o d e
p h ụ tr á c h c á c k h ó a t h ứ c ấ p b ậc n N ê u sô lư ợ n g nội d u n g th ô n g tin lưu tại m ôi n o d e
p h ụ trá c h c á c k h ó a t h ử c ấ p b ậc n n h o h ơ n Nmax- ihifc h iệ n B ư ớ c 2 N ê u sô lư ợ n g nội
d u n g t h ô n g tin lưu tại m ồ i n o d e lớn h ơ n Nmax- th ự c hiện B ư ớ c 3
Trang 151 lìn h 4 M ô h ìn h p h â n b ô ih ô n g tin c u a Líiái thu ật S M A V đề xuất
N g o à i ra, n o d e p h â n bô t h ô n g tin sẽ gưi th ô n ụ tin về k h ó a th ứ c ấ p bậc n ^ l và
th ô n g tin v ề c á c k h ó a k h ô n g p h ô biến tới c á c n o d e p h ụ trá c h k h ó a th ử c ấ p bậc n
tư ơ n g ứng C á c t h ô n g b á o n à y gọi là các th ô n u b áo á n h x ạ khóa N o d e p h ụ trách
k h ó a t h ứ c ấ p b ậ c n sẽ lưu các th ô n g tin n à y t^on^ b aim á n h xạ c u a m ìn h đ ồ n u ihời
tă n g số đ ế m vớ i c á c ánli x ạ tư ơ n íỉ ímg T r o n ẹ trư ờ n tí h ợ p n = 1, th ô n o tin về mồi kJióa t h ứ c ấ p b ậc 2 sẽ đ ư ợ c lư u tại hai n o d e p h ụ trá c h hai c ặ p thuộc tính/'giá trị p h ố
b iế n tạ o ra k h ó a t h ứ c ấ p b ậ c 2 này T h ô n g tin về k h ó a th ứ c ấ p bậc n+1 \'à các k h ó a
k h ô n g p h ố b iế n sẽ g iú p c h o n o d e p h ụ trá c h k h ó a th ứ câ p bậc n c h u y ê n tiếp các t h ô n e báo tru y v ấ n đ ế n c á c n o d e c h ứ a th ô n g tin c ầ n tìm
Ví dụ g iá s ử (a |,V i).(a2.v :) (a 3,V3) là 3 cặ p thuộc tín h /g iá trị p h ô biến (a 4.V4).(a5.V5)
là 2 c ặ p t h u ộ c tín h /g i á trị k h ô n e p h ố biến c u a m ộ t tê n nội d u n g , các k h ó a Ihứ c ấ p bậc
2 sa u s ẽ đ ư ợ c tạo ra:
s u b _ k | = H ((a|.V ]).(a:.V2))
s u b _ k2 = H((a|.vi).(a3,v-Ị))
S L i b k , = H ( ( a 2 v i ) , ( a 3 \ 3 ) )
G i á s ư số nội d u n c thôníi tin gắn \ ó'i khóa s u b j ( ! nho hơn NMAxthì nội đung th ôn s
tin đ ó sẽ đ ư ợ c p h â n b ô đ è n nú t p h ụ trách k h ó a sith kị. đ ô n g thời th ô n g tin về k h ó a
t h ử c ấ p b ậ c 2 sLib_ki k h ó a 1<4 và k h ó a ks ứ n g với 2 c ă p th u ộ c tíiilvgiá trị k hô rm phô
b iến (a4,V4),(as,V5) sẽ đirợc lưu tại no d e phụ trác h k h ỏ a k|Và n o d e p h ụ trá c h k h ó a Rị
N ế u số nội d u n g t h ô n ũ tin g ă n với k h ó a s u h _ k Ị lớn hơn Nm \x- các k h ó a th ứ c ấ p b ậc 3
s a u đ â y sẽ đ ư ợ c tạ o ra:
s u b k | | = H ( ( a | \'i) { a ; \ ; ) ( a j ; , v3)
15
Trang 16V ié c á n h x a g i ü a c á c k h ó a d u g c m ó tá n h u tr o n g H i n h 1.
k2H(a2,V3)
l<3H(a:„v,)
k4Híaj.vj)
k?
H(a5,V5)
H in h 5 Á n h xa k h ó a t h ú cap
V ié c á n h xa k h ó a n h u H in h 1 se g iú p ch o viéc tim k ié m bát d á u tir k h ó a k| d u g c
th u c h ié n m ó t c á c h n h a n h c h ó n g c h o d é n khi hét các kliá n á n g lim kiém th ó n g tin
M ó i n o d e t r o n g m a n g n g a n g h á n g sé d u y Iri m o l b a n g án h xa k hóa p hán bó-nói
d u n g th ó n g tin n h u B a n g 1 C ác th ó n g tin d u g c lu u tro n g b a n g b ao g ó m k h ó a phñn
bó, tén nói d u n g vá nói d u n g th ó n g tin g án vói k h ó a p h á n bó, só lu o n g nói d u n g
th ó n g tin g á n vó i k h ó a p h á n b ó v á c ó trán Khi só l u g n g nói d u n g th ó n g tin g án \ ó i
k h ó a p h á n bó l á n h a n c ó trá n sé d u g c bát lén (c ó giá tri Yes), S ó k rg n g nói
d u n g t h ó n g tin g á n v ó i k h ó a p h á n bó c ó th é kVn h a n só l u g n g nói d u n g th ó n g tin
d u g c lu u t r o n g n o d e khi c a trán d u g c bát lén d o m ó t p h á n nói d u n g th ó n g tin d u g c luu tai các n o d e k h á c S ó d é m dói v ó i m ó i k h ó a k, sé d u g c tá n g ién klii có th ó n g báo
p h á n b ó t h ó n g tin v á i k h ó a p h á n bó la k h ó a k, d u g c gu i d é n ho ác khi c ó th ó n g báo
á n h xa k h ó a dó i v ó i k h ó a k, d u g c g ü i dén
M ó i n o d e cijn g d u y tri B a n g á n h xa k h ó a t h ú c á p n h u B a n g 2 vá B a n g á n h xa k h ó a
k h ó n g p h ó b ie n n h u B a n g 3 T r o n g 2 b á n g náy, các th ó n g tin vé á n h xa g ü la k h ó a do
n o d e p h u tr á c h v ói các k h ó a t h ú c á p vá k h ó a k h ó n g p h ó bien c ü n g n h u c a p th u o c tin h /g iá tri d u g c s ú d u n g d é ta o ra k h ó a t h ú c á p ho ác k h ó a k h ó n g p h ó bien sé d u g c luu lai N g o á i ra só l u g n g các á n h x a c ü n g d u g c lu u lai dé p h u c v u c h o \ iéc lú a c h o n kJióa tru y v a n s a u ná>-, S ó l u g n g á n h xa sé d u g c c a p n h á t m ói kJii có th ó n g báo á n h
Trang 17T r o n g h ệ t h ố n g đ ề x u ấ t c ủ a c h ú n g tôi, truy vân t h ô n a tin d ư ơ c tiên h a n h th eo các
c ặ p th u ộ c tín h /g iá trị tr o n g tê n nội d u n ? C â u tm> v ân th ỏ n u tin sC' bao g ô m các cặp
thuộc tínlVeiá trị truy vấn và kết quá truy vân tra vê b a o gôm các nội dung thông tin
có tê n nội d u n g c h ứ a các c ặ p th u ộ c tín h /g iá trị tru>' \ â n v à các c ặ p th u ộ c tín h /g iá trị
có th ể c ó t r o n g c á c tru y v ấ n tiếp theo
D ự a tr ê n c á c h p h â n b ô th ô n g tin n h ư đã trin h hà}' ơ trên, việc tru>' \'á n th ô n g tin
d ự a trê n c á c c ặ p t h u ộ c tíiih/giá trị sẽ đ ư ợ c th ự c h iệ n th e o n h iê u bư ớc T r ư ớ c tiên,
tư ơ n íí t ự n h ư b ư ớ c đ ẩ u tiên khi p h â n bô nội d u n g th ô n g tin n o d e n h ậ n y ê u câ u truy vấn sẽ g ử i y ê u c ầ u tru y v ấ n số lư ợ n g tới c á c n o d e p h ụ trá c h các k h ó a tư ơ n g ứ n g \ Ớ1 các c ặ p t h u ộ c tín h /íiiá trị c ó tr o n g c â u tru y vấn V iệ c g ư i gói tin sè th ô n g q u a g iao
th ứ c c u a m ạ n g n g a n g h à n g c ó c ấ u trúc S a u kJìi n h ậ n đ ư ợ c kêt q u a tra \'ê nó sẽ c h ọ n
k h ó a c ó số lưọiiíỉ th ô n g tin ít n h ấ t làm k h ó a trm ' \ ấn k,, \ à gưi trự c tiếp th ô n g b á o > êu
c ầ u tru y v ấ n đ ế n n o d e p h ụ trá c h klióa tru>- \ ấn
S au khi n h ậ n đ ư ợ c Ih ô n u b á o y ê u câu tru y \ â n n o d e p h ụ trá c h k h ó a truy \'àn trư ớ c tiê n sẽ k iế m tra c ờ tràn tirơtm ín m với k h ó a tru> \'â n N ê u c ờ tràn k h ô n g
đ ư ợ c bật lên đ iề u đ ó có im h ĩa tất ca các nội d u n g th ô n g tin gán với k h ó a Iruy vấn
đ ề u d ư ơ c lưu y iừ tại n o d e p h ụ trá c h k h ó a tru> \ ẩ n T r o n g tr ư ờ n g h ọ p n à \ n o d e p h ụ trá c h k h ó a tru y v ấ n k,! sè tìm k iế m nội d u n g t h ò n g lin lư u g iữ tro n g b a n g á n h xa k h ó a
p h â n b ố - n ộ i duiiR t h ô n u tin th e o k h ó a tru\' vân k^,. N o sẽ tra \ ê kêt q u a lá n h ữ n g nội
d u n g i h ô n c tin c ó tC'n nội duriii c h ứ a tât ca c á c c ặ p th u ộ c tín h /g iá trị c ó tr o n g c â u tr u \
17
o A ! H O C G U Ỏ C G I A H À N Ô I Tf?UNG T Á M T HÓMG TìN THỰ VIỀN
Trang 18N ế u c ờ trà n g á n vớ i k h ó a tru ỵ v ấ n đ ư ợ c b ậ t lên đ iề u đ ó có n e h ĩa n o d e p h ụ trách
k h ó a tr u y v â n chỉ c h ứ a m ộ t p h â n nội d u n g th ô n g tin g á n với k h ó a tru> vấn T ro im
t r ư ờ n g h ợ p n à y , n o d e p h ụ trá c h k h ó a tru y v ấ n sẽ p h a i gừi >êu c ẩ u tru \ \ ấ n đ ế n các
n o d e c ó k h ả n ă n g c h ứ a nội d u n g t h ô n g tin c ầ n tim
H ì n h 6 M ô h ìn h tru y v ấ n th ô n g tin tro n g giai thuật dề xLiíit
D ự a irê n c á c h p h â n b ổ nội d u n g th ô n g tin n h ư đ ã trinh bày ơ p h ầ n trên, n h ừ n g nút
có k h a n ă n g c h ứ a nội d u n c thôntĩ tin cân tim là n o d e p h ụ trá c h k h ó a truy \ ân các
n o d e p h ụ tr á c h c á c klióa t h ứ c â p án h xạ từ k h ó a tru> vân và các n o d e p h ụ irách
k h ó a k h ô n g p h ô b iế n áiili x ạ từ klióa tru>' v ấ n tại n o d e tru>' \ ân \ Ớ1 đ iêu kiện căp
th u ộ c tín h /o iá trị ứ n c với k h ó a th ứ c ấ p h a y k h ó a k h ô n g p h ô b iê n phai c ó tro n g câu tru v v ấn N h ữ n c n o d e p h ụ irá c h k h ó a k h ô n g p h ò biên sẽ lưu g iữ tât ca các nội d u n g
t h ô n g tin có tê n nội đ u n g c h ứ a c ặ p Ihuộc tin h - g iá trị k h ô n g p h ô biên tư ơ n g ứ n g vứi
k h ó a k h ô n g p h ô biến N h ừ iig n o d e p h ụ trác h k h ó a th ứ c ấ p sẽ lưu g iữ tâi ca các nội
d u n g t h ô n g tin có tê n nội d u n g c h ứ a các c ặ p th u ộ c tin h giá trị tư ơ n g ứ n g \ ới k h ó a th ứ
V ì v â v t r o n g t r ư ờ n ^ h ợ p k h ó a tru y v àn bị tràn, các th ô n g b á o >ẽu c à u tru\- \ ãn sẽ
d ư ợ c lạ õ ra va uưi đ ĩ cá c n o d e p h ụ trách k h ó a th ử cấ p và cá c n o d e p h ụ trác h k h o a
k h o n g p h o bicn M ộ t c á c h tỏ n g qu át, m ộ t th ô n g báo tru\' \'ấn sẽ có đ ịn h dạng:
tr o n u d ó k h ó a tru> \ ần Ấ:,, là giá trị b ăm cua m ột ha> n h iê u c ặ p th u ỏ c tinh giá trị có
troiìg câu U-uý vấn ((a|.v:).' (a,.v,)) là các căp ihuỏc linh gia Irị có Irong câu tru> vấn
va type la k iế u t r u \ v ấ n k h ỏ a th ứ cắp k h ó a phô b icn ha> k h ó a k h ỏ n g phô biến
p iiầ n tiế p th e o s'ẽ trìn h bà> c a c h ih ử c tim k iê m \ Ớ1 klióa tru> \ â n bị trán
Trang 19B Tì m kiếm vói khóa truy vấn bị tràn
N ê u c â u tru ỵ v â n chi c h ứ a các c ặ p th u ộ c lin h /g iá trị tư ơ n g ú n a \ ới k h ó a truv \ ấn kj
(n ó i c á c h k h á c là giá trị b ăm cù a tất cà các c ặ p th u ộ c t í n h e i á trị truN v ấn
((^h'^2). -,(ci¡,vj)) thì n o d e p h ụ trác h k h ó a tru> vấn sẽ gừi các nội duntí th ô n g tin ỉiẽn
q u a n đ ê n k h ó a tru y v ậ n m à nó lưu giừ và d a n h sác h các c ặ p thuộc t í W a i á trị được
á n h x ạ từ k h ó a tru y v â n tro n g b á n g á n h xạ k h ó a k h ô n u phô b iế n và b à n a án h \ ạ k h ó a
t h ứ câp D a n h s á c h n à y sẽ đ ư ợ c s ắ p xếp th eo th ứ tự RÌam d ầ n c u a số lượim các nội
d u n g t h ô n g tin t ư ợ n g ứng N g ư ờ i d ù n g sẽ lựa trọn tiếp các cặp th u ộ c tínli íiiá trị tiếp
th e o đ ế tru y vấn tiế p n ế u m u ố n
N ê u số lư ợ n g c ặ p th u ộ c tin h /g iá trị tro n g c ả u tru_\ vấn n h iều h ơ n số lư ợ n u cíỊp
t h u ộ c tín h /g iá trị tư ơ n g ứ n g với k h ộ a truy \ ấ n n o d e p h ụ trá c h k h ó a truy \ à n sẽ tìm
k iê m tr o n g B á n g á n h xạ k h ó a th ứ c â p và tro n g banti án h xạ k h ó a k h ô n u phô bien các
V ớ i m ô i e n try nêu c ặ p th u ộ c tin h /g ià trị (a,|,.Vqi) có troni; cà u truy vàn
((ai,V2), ,(ü „ vj), k h o a k^, sẽ trơ th àn h ứ n g \'iên k h ó a tru>' vấn tiếp theo, Lne, \ i è n
k h ó a tru y v â n có sô lư ợ n g nội d u n g th ô n g tin uắn với nó là Iilio n M t sè trơ thanh
k h ó a tru y v ấ n tiếp theo
N ê u k h ó a tru y v ấ n tiểp th e o là m ộ t k h ó a th ử cấp n o d e phụ trách k h ỏ a truy \ ấn sẽ gửi y ê u c ầ u tru y v ấ n đ ế n nú t p h ụ trách k h ó a th ứ cấ p n à > đ ồ n g thời nó sẽ tim kiém
c á c nội d u n g th ô n g tin m à n ỏ lưu g iữ thoa m ã n diều kiện truy v ấn và tra vê kêl qua
N ê u k h ó a tru y v â n tiêp th e o là m ộ t k h ó a k h ỏ n u p h ô biên, n o d e phụ trácli klioa truv
v ấn sẽ g ử i y ê u c ầ u tru y vấn đến nút p h ụ irách k h o a kh ô im plũ) bien n a > 1 ronu trưcmíỉ h ợ p n à y n o d e p h ụ trác h k h ó a tru\' \ ấ n sẽ k h ô im tim kicni các nội d u n u thõ n u tin m à n ó íưu eiừ Đ ó là d o n o d e p h ụ trách k hóa tru_\ \ ã n liỏp ih co lưu Lìiừ lâl cac các nội d u n g th ô n g tin c ầ n tim c ó thê có
3.4 Đ á n h giá thuật toán
T h u ậ t toán đượ c đánh giá dưa Trên ba yếu tố:
• H iệ u q u à tr o n g p h â n b ổ nội d u n g th ô n g tin: d á n h giá bơi sô lư ợ n g k h ó a đư ợ c
tạ o ra D ư t h ừ a (o v e r h e a d ) tro n g việc p h à n bô k h ó a sẽ t> lệ ih u â n với sò luxĩng
k h ó a tạ o ra ứ n g với m ỗ i tên nội d u n g
• H iệ u q u á tr o n g tìm k iế m th ô n g tin: đ á n h giá bơi sô lưẹmg n o d e cán truy \ ân va thờ i g ia n iruy vấn
• M ứ c c â n b à im tai g iữ a c á c n ode: đ á n h giá bo’i sir p h â n bố số lưcTng nội du n g
t h ô n g tin và số tru>- v ấ n tại m ỗ i node
3.4.1 Đ á n h giá định tính
T r o n g eiái p h á p c u a c h ú im tôi số k h ó a p h à n bô d ư ợ c lạo ra ứ n g với m ộ t nội d u n g
t h ô n g Im tù v t h u ộ c v à o số lư ọnii và tính phô b iê n cac c ặ p th u ộ c tín h /g iá trị có tro n g ten nội dun<'^ c u a nội d u im th ô n u tin đó N e u sô lư ợ n g c ặ p th u ộ c tín h /g iá trị c u a tên nội d u n g là N v à stT lircTiiü c ặ p th u ộ c tín h /g iá trị p h ò biên là x' thi sò k h ó a th ứ câp
b ậ c 2 (tư ư iig ứ n g với hai c ặ p th u ộ c tín h /g iá Irị) đ ư ợ c lạo ra là x ‘( x '- ỉ ) 2. N ê u X" lá
s ổ lư ợ n g k h ó a t h ứ c ấ p pliô b iế n bậc a (tirơiig ứ n g \ ý i u c ặ p th u ộ c tín h /g iá trị a>-l ) ihi
số k h ó a t h ứ c ấ p bậc a - l d ư ợ c tạo ra ử n g \ớ ì mói k h ó a th ứ c á p bàc u sè la V' LI
( b à n g số c ặ p t h u ộ c tín h g iá trị p h ô biến trừ di sỏ că p ih u ộ c tính giá Irị ứ n g \ ớ i k h ó a
19
Trang 20t h ứ c â p b ậ c a). D o nội d u n g th ô n g tin k h ô n g đ ư ợ c luii tại các n o d e p h ụ trác h các
k h ó a t ư ơ n g ứ n g với c ậ p /c á c c ặ p th u ộ c tín h /g iá trị p h ô biến nên t ô n e số k h ó a đ ư ợ c tạo
ra t ư ơ n g ứ n g vớ i m ộ t tên nội d u n g sẽ là:
N + X ' ( X ' - \ ) / 2 + ỵ X " { X ' - a ) ^ ỵ x “
N ế u N = 1 2 , x ' = 4, = 1 thi tô n g số k h ó a đ ư ợ c tạo ra sẽ là 15
Đ ê h ạ n c h ê sô k h ó a p h â n bô tạo ra thì phải hạn chế số c ặ p th u ộ c tín h a iá trị phô
biên b ăn g cách chọn cận trên Nmax lớn Tuv nhiên việc nàv có thè dẫn đến việc các
n ọ d e p h ụ trá c h các c ặ p th u ộ c tín h /g iá trị p h ô biến phai c h ịu tai lớn và do đó sỗ dẫn
đên sự mât cân b ă n g vê tái Vi vậy, việc lựa chọn cặn trẽn Nmax rất quan trọng và tù>
th u ộ c v à o s ự p h â n bô c u a nội d unti th ô im tin vào các n o d e tr o n e m ạ n g n e a im hàng
T r u y v â n th ô n g tin c ũ n g tù y th u ộ c vào sự p h ò bicn cu a các c ặ p th u ộ c tín h /e iá trị có
tr o n g c â u tru y vân N e u ton tại m ộ t cặ p ih u ộ c tính uiá trị k h ô n g p h ô b iến tro n g câu tru y v â n thì v iệc tru y vấn th ô n g tin chi ihực h iện \X7Ì m ội lru\' vấn N ế u k h ô n g \ iệc tru y v ấ n th ô n g tin sẽ đ ư ợ c th ự c hiện n h iề u lần tùy thuộc vao số !ux,mg nội d u n u ihỏnti tin tim kiếm
C ác đ á n h g iá trê n m ới chi d ừ n g lại ơ m ứ c độ đ in h tinh lY o n g p hần tiếp th eo c h u n e tôi sẽ ih ự c h iệ n m ô p h o n g giai ihuật đe xuất và tiến h à n h d á n h giá giai Ihiiật m ộl c á ch
đ ịn h lư ợ n g và chi tict hơn
3.4.2 Đá nh giá dựa trên mô phỏng
• P h â n p h ố i tê n nội d u n e th e o giá trị b ã m c u a m ỗi c ặ p giá trị th u ộ c linh (P h à n phôi
th ô im th ư ờ iig ) D o c á c h p h â n bô tên nội d u n g nlur trên nên việc x ư lý tr u \ vàn
d ư ợ c th ự c h iệ n b à n g c á c h c h ọ n n g ẫ u n h iê n 1 c ặ p th u ộ c tín h /g iá tri co tro n g câu tru y v ấ n v à gưi tru y v ấ n tới n o d e p h ụ trác h k h o a cu a c ặ p thuộc t í n h giá trị đ ư ợ c chọn
• P h â n p h ố i tê n nội d u n g th e o th u ậ t to á n S M A V
G i a o th ứ c C h o r d đ ư ợ c sư d ụ n e tr o n g m ô p h o n g m ạ n g n g a n g h à n g có c â u trúc Sô
n o d e t r o n g m ạ n g là 2 0 0 0 \'à k h ô n g g ia n k h ó a là 16
C ậ n trê n số tê n nội d u im uắn với 1 k h ó a N |113\ d ư ợ c tíiih ih ô n g q ua tông sô cặp
t h u ộ c tính/íỊÌá trị tro tm tất ca cá c tên nội d u n g đ ư ợ c c h ia se trẻn m ạ n g va sô k h ó a liên
q u a n đ ế n c a c c ậ p t h u V ’ tín h g iá trị này, T r o n g m ô p h o n g nà> c h ú n g tôi tính N m a x
b a n g c o n g th ứ c sau: = Ü* S L /S K + p T r o n g đỏ: SL là tò n g c h iề u dài các tê n nội
d u n g , S K là số c á c k h ó a k h á c nliau h a y các c ặ p th u ộ c t in h giá trị k h á c n h a u xu ất h iện
t r o n g c á c tê n nội d u n e ơ p lủ 1 cá c h à n g sổ, T r o n g m ô p h o n g nà> c h ú n g tỏi c h ọ n
C h ư ơ n ^ ’ trìn h m ô p h o n a s in h n cẫ ii n h iê n các ih u ộ c tính S ô các th u ộ c tinh đirơc lây
t ư ơ n g đircmg vớ i số th u ộ c tin h t h ư ờ n g th ấ y khi dặc ta vẽ 1 tên th ô n g tin Vi dụ: dặc la
20
Trang 21ve j c u o n s á c h g ô m cá c th u ộ c tin h như: mã sách, tiêu đè, ìủc gia năm xuất han nlùi xuat ban, sô trang, loại sách, lập nước xuất ban. s ố th u ộ c tính tru n g b ìn h troim
m ộ t tê n nộ i d u n g là 10
T ừ c á c t h u ộ c tín h đ ã sinh ở trên, c h ư ơ n g trình sin h Tiếp các c ặ p A V th e o qui tác:
• VỚI m ô i th u ộ c tín h A , sinh ra m ộ t số n g ẫ u n h iê n các ciá trị e á n c h o th u ộ c tinh
A đ ó đ ế tạ o t h à n h c ặ p A V
• S in h ra các tê n nội d u n g từ các c ặ p A V nói trên, xác suất x u ấ t hiện c u a m ồi cặp
A V tu â n th e o p h â n b ố Zipr,
C á c tê n nội d u n g sẽ đ ư ợ c p hân phối đ ến các n o d e q u a n lý c h ú n c thỏrm q u a cá c aiai
th u ậ t m ô p h ó n g C h ư ơ n g trinh m ô p h ó n g c ũ n g sinh ra m ột loạt các c â u tru_\’ \ ấn bao
g ô m c á c c ặ p g iá trị/th u ộ c tín h và gửi th ô n g báo lru> \ ã n dồn các n o d c p h ụ trác h thoo
các giái th u ậ t tru y vấn
B Ket quả mô phỏ n g
C h ư ơ n g trình mô p h o ng đã được thực hiện \ ới CÍÍC tham số mỏ phorm Iilur dưới đâ_\:
• S ô tê n nội d u n g th ô n g tin: 2 0 0 0 0
S ộ c ặ p g iá trị/th u ộ c tinh tro n g m ột tên nội duim: 10
• Số c â u tru v vấn: 5 0 0 0
• S ộ c ặ p g iá trị/th u ộ c tinh tro n g m ột tên nội duim: 10
• S ố c â u tru v vấn: 5 0 0 0
• T ố n g số c á c c ặ p giá trị/th u ô c tính tro n u các lên nội dun u : - 1 9 0 0 0 0
• S ô C c ậ p th u ộ c tín h /g iá trị khác n h a u xuất hiện iro n u các tên nội durm
3 3 0 0 0 cặ p
là hơn
1 0.9
0 2 0.1 0
- Ftiần trăm số thuòc tinh
T ầ n s ố x u ấ t h iệ n c u a c ặ p th u ộ c tin h /g iá tr ị
H ìn h 7: T y lệ p h ầ n trăm tần số x u ấ t h iện 1 th u ộ c tín h /g iá trị
F linli 7 thế h iệ n s ự p h à n bố c u a cá c c ặ p aiá trị th u ộ c tiiìh trê n các lên nội duníi i h ô n e tin tr o n g m ô phóntí D o tu â n theo luật p h à n bô Z i p f nên ta th â y có 1 sô th u ộ c tin h 'g ia tri x u ấ t h iệ n với tầ n số rấl lern Đ ó c h ín h là các th u ộ c t i n h g iá trị p h ô biên \ u â t hiện ơ
n h iề u tên nội d u n ti k h ác n hau Ket q u a m ò p h o n g c h o th ấ \ \ ới 2 0 0 0 0 tên nội du n g ,
số lư ự n u c á c th u ộ c lính/tỉiá trị p h ô biên tu \ chi c h iê m d ư ở i 5® 0 lônt: sô các thuộc
t í n h /g i á trị s o n u tần số x u ấ t hiện cun nó lại rât lớn c ó th u ộ c tín h /g iá trị xLiât h iệ n tới
8 I S ' ’ lần tứ c là x u ấ t hiện trorm h ơ n 4 2 % lẽn nội d u n g C h in h cá c th u ộ c lín li uiả trị
n à v tỉâv lên s ự m ấ t c à n b ằ im \ ề tai nội d u n e khi ta th ự c hiện việc p h â n bô tên nội
d u im d ự a trè n D H T
Trang 22v e j c u ô n s á c h g ô m c á c th u ộ c tín h như: mã sách, tiêu dè, tác gia năm xiiắi han nliLi xuạí bủn sô trang, loại sách, tập, nước xuát han, s ổ th u ộ c tính tru n a b ìn h tro n g
m ộ t tê n n ộ i d u n g là 10
T ừ c á c t h u ộ c tín h đ ã sin h ờ trên, c h ư ơ n g trinh sinh tiếp c á c c ặ p A V th e o qui tăc:
• VỚI m ô i t h u ộ c tín h A , sinh ra m ộ t số n g ẫ u n h iê n các giá trị e á n c h o th u ộ c tinli
A đ ó để tạ o t h à n h c ặ p A V
• S in h ra c á c tên nội d ụ n g t ừ các c ặ p A V nói trên, xác suất x u ấ t hiện c u a m ồi cặp
A V tu â n th e o p h â n bố Zipf
C á c tê n n ội d u n g sẽ đ ư ợ c p h ân phối đến các n o d e q u a n lý ch ú n í; th ỏ n a q u a cá c siai
th u ậ t m ô p h ó n g C h ư ơ n g trinh m ô p h ó n g c ũ n u sinh ra m ộ t loạt các c â u tru> \ ấn bao
g ô m c á c c ậ p g iá trị/th u ộ c tín h và gừi th ô n g báo tru> \ ân đến các n o d e p h ụ trách theo
cá c giái th u ậ t tru y vấn,
B Kết quả mô phỏ n g
C h ư ơ n g trình m ô p hóng đã được thực hiện với các tham số mô phoim nliư dưới đ â \ :
• Sô tê n nội d u n g th ô n g tin; 2 0 0 0 0
• Sô c ặ p g iá trị/lh u ộ c tính troníỉ m ột lên nội duim: 10
• So c â u tru y vấn: 5,000
• T ổ n g số các cặp uiá trị/thuộc tính trona các tên nội duim: ' 1 9 0 0 0 0
• S ô c ặ p th u ộ c lín h /g iá trị kh ác n h a u xu ất hiện ironí! các tên nội dun<! la hơn
T ằ n s ố x u á t h iệ n c ù a c ặ p th u ộ c tin h /g iâ tr ị
H ì n h 7: T>' lệ p h ầ n trăm tần sổ xuất h iệ n 1 th u ộ c tín k 'g iá trị
H ìnli 7 th ế h iệ n s ự p h â n b ố c u a c á c c ặ p giá trị/th u ộ c tinh trên các tên nội d u n g th ô n g
tin t rong m ô phong Do tuàn theo luật phân bô Z i pt ' né n ta th ây có 1 sô thuộc tính/giá
trị xu¿it h i ệ n VỚI t ầ n số rất lớn Đ ỏ c h í n h là c á c t h u ộ c t í n h gi á trị p h ô biên, x u â t h iệ n ơ
n h iề u lê n nội d u n e kh ác n hau Kết q u a m ô p h o n g c h o ih ấ y với 2 0 0 0 0 lên nội d u n g ,
s ố lirợng c á c t h u ộ c tinh/i:iá trị p h ô biến tu>' chi c h iế m d ư ớ i 5 % lô n g số c á c thuộc
t í n h / g i á trị s o i m t ầ n số x u ấ t h i ệ n CLUI n ỏ lại rât kVii, c ỏ t h u ộ c t i n h g i á trị XLiàt h i ệ n tới
8 1 5 ^ lần tứ c là x u ấ t h iện tro im hem 4 2 % lên nội d u n g C h in h c á c th u ộ c tín h /g iá trị
n à v g â y lên s ự m ấ t c¿in h à n a về tai nội d u n g khi ta ih ự c hiện \ iệc p h â n bò tên nội
d u n g d ự a tr ê n D H T
21
Trang 23t h ư ờ n g P h â n phồi t h eo '
S M A V
I
T hứ hạng (rank) của các node theo sổ tèn nội dung
H in h 8: P h â n bổ tên nội d u n y tro n y các n ode
H ìn h H c h o th ấ y , bànũ, c á c h sứ d ụ im th u ậ t toán S M a \V tai nội d u n g c u a cac n o d e IILMI
m ạ n g đ ư ợ c p h â n p h ố i c â n b à n g h ơ n rất n h iề u so V Ớ I c a c h th ứ c p h á n phối th ò n g
thirờng Đ ặ c biệt với n h ữ n g n o d e c h ịu tái lớn sự kh ác biệt d ư ợ c n hận th ã \ rât rõ rang
lY o n g khi tai nội d u n g c u a m ộ l số n o d e th e o c á ch p h à n phôi th ô n g th ư ờ n g lèn tưi gãn
8 2 0 0 , thi tải nộ i d u n g c ủ a n o d e c h ịu tai lớn nhât th e o th u ậ t to án S M A V chi \ à o
k h o á n g 800, th ấ p h o n tới 10 lần K ế t q u a trên c h o th â \ giai ihu ật S M A V có ihê dại
đ ư ợ c s ự c â n b à n e về tai nội d u n g m ộ t c á c h h iệ u qua,
S MA V
Thứ hạng {rank) cùa các node theo số truy vấn
H ìn h 9 :P h â n bỏ số iruy vấn g iữ a ca c n o d e tro n g m ạ n g
Trang 24V ớ i giải t h u ậ t S M A V , tên nội d u n g đ ư ợ c p h â n bổ đ ề u h ơ n trên các n o d e n ê n việc x ư
lý c á c tr u y v â n liên q u a n đ ê n tê n nội d u n g trên các n o d e c ũ n g k h ô n g g â \ ra sự c h ê n h ỉệch vê tải n h i ê u so vớ i phưom g p h á p D H T b in h th ư ờ n g H ìn h 9 ch o th ẩ > khi xét với
5 0 0 0 tr u y v â n k h á c n h a u v à n o d e th ự c h iện tru v \ ấn đ ư ợ c c h ọ n n g ẫ u n h iê n trên
2 0 0 0 n o d e c ủ a m ạ n g , tải tru ỵ vấn c ú a p h ư ơ n g p h á p S M A V đ ư ợ c p h â n bố k h á đều,
n o d e n h iê u n h â t p h ả i x ử lý gần 750, tro n g khi theo p h ư ơ n g p h á p p h â n bố d ữ liệu
t h ô n g th ư ờ n g , c ó n o d e phải x ứ lý tới h ơ n 4 0 0 0 tru> v ấn
H ìn h 10 c h o th ấ v đ ồ thị b iế u diễn p h ầ n tră m số tên nội d u n g iheo sổ án h \ ạ d ư ự c sinh
ra bởi m ồ i tên nội d u n e tr o n g q u á trinh p h â n bô th ô n g lin A n h xạ ơ đây d ư ợ c tính là
t ổ n g s ố tất cả c á c á n h xạ c á c loại m à n o d e c â n lưu trữ n h ư á n h x ạ k h ó a p h â n bò va
tê n nội d u n g , á n h xạ k h ó a th ứ c ấ p các bậc kh ác n hau, ả n h xạ k h ô n u p h ô biên \ à ánh
xạ đ ặ c biệt C ó h ơ n 6 5 % số tên nội d u n g sin h ra ít h o n 32 á n h x ạ th e o giai th u ậ t p hân
b ồ S M A V S ố tê n nội d u n ti s in h ra n h iề u h ơ n 77 án h xạ c h iế m k h o a n g 10% tô n g số
tê n nội d u n e Đ â y là số tê n nội d u n g c h ứ a n h iêu c ặ p th u ộ c tín lv g iá trị tro n g đó có
n h iề u c ậ p th u ộ c t í n h /a iá trị p h ổ biến K ế t q u a m ô p h o n g c ũ n g c h o thấ>- tru n g b ình
m ồ i tê n nội d u n c t h ô n u tin sinh ra k h o a n g 30 á n h xạ
Trang 25xử lý 1 truy ván t heo
c á c h t hõng
t h ư ớ n g
- Thời gi an I
xử lý 1 truy I ván t h e o 1
SMAV
T h ử h ạ n g c u a c á c c â u t r u y v ẩ n t h e o th ờ i g ia n x ừ lý
5001
H ìn h 11: T h ờ i gian truy vân
K hi x ư lý 5 0 0 0 c â u tru y v ấ n tro n g m ạ n g m ỏ p h o n g nói trôn, c h ú n g tôi tiến h à n h đo
thời gian trung binh để x ứ lý 1 câu truy vấn theo cách iruỵ vấn bình thường \'à tlĩeo
g i ả r t h u ậ t S M A V T h ờ i g ian x ứ Iv 1 truy vấn đ ư ợ c tính b ă n g c á ch lây tô n g thời gian
th ă m d ò số lư ợ n g khi th ự c h iệ n truy vấn và ihời g ian c h u ỵ ẻ n tiêp c â u truy vân tởi
n o d e dích V ớ i c á c h th ứ c h o ạ t độnij, c u a S M A V cân n h iê u thờ i gian hơn khi x ư lý
q u e r y so với p h ư ơ n g p h á p p h â n bô d ữ liệu th ô n g th ư ờ n g , vi tro n g giai thuật S M A V
có Ihể phủi th ự c h iệ n tru y vấn tới các k h ó a th ứ câp ru_\ nhiên, dô thị ch o th â \ khi
x é t v ớ i 5 0 0 0 t r u y v ấ n k h á c n h a u v à n o d e t h ự c h i ệ n tru> v â n d ư ợ c c h ọ n n g â u nhiC'n
í '
CỒ rS O rấ t n h ỏ t r u y v a n ĩ H ẽ o S M 7 t V ' c o thời gian t r u v \-ãn lơ!i h(m thơi g ia n lru>' van
th e o D H T t h ô n e t h ư ờ n g T r u n g b ìn h thời gian truy \ ân th e o D H T bình t h ư ờ n g chính
b ằ n g thờ i g i a n tìm S u c c e s s o r c h o 1 k h ó a k và tro n g m ỏ p h o n g là 6.7, T r o n g khi theo
S M A V t r u n g b ìn h g iá trị nà>- là 8.1
4 Kết luận
E)ề tcài đ ã tậ p tr u n g n g h i ê n c ứ u cá c v ấ n đ ê sau:
- r ì m h iê u các giai p h á p tim k iế m th ô n g tin trên m ạ n g n g a n g h à n g
- D e xu at m ộ t giai p h á p tìm k iế m th ô n g tin th e o th u ô c tín h /g iá trị trên m ạ n g n g a n g
- D a n h giá giíii p h á p đề x u ấ t d ự a trên m ỏ p h o n g K ẻi q u a c h o th â y giai p h á p đê x uàt
đạ t đ ư ợ c đ ộ c à n b ă n u tốt \ à chi phí p h â n bô \ à_tru> \ ấn * ô n g tin là h ợ p l v _
HiaViìg p h á t triên tiếp th e o c u a đỏ tài b a o g ồm ;
- Dáiìỉi ‘Má tỉiai p h á p d ự a trên m ò h ìn h gia lập Inlcrnet
24
Trang 26C ái tiê n giải p h á p c h o p h ù h ợ p với đ iề u kiện s ư d ụ n g trên th ự c tế n h ư eiơi hạn \ ề tải v à b â n g t h ô n g củ a m ỗi n o d e
ư n g d ụ n g giái th u ậ t đ ê x u ấ t đề xây d ự n g các ứrm d ụ n g tim k iế m t h ô n ạ tin Irèn
m ạ n g In te r n e t
V iẹ c th ự c h iệ n đ ê tài đã th u đ ư ợ c m ộ t số kết q u a sau:
• K ê t q u ả k h o a học: l báo c á o k h o a học tại hội thao q u ố c tiia
N g u y ê n H o à i S o n , H ô S ĩ Đ à m ‘'T im k iế m th ô n u tin ih e o các thuộc tín h tziá trị trê n m ạ n g n g a n g h à n g có c â u trú c" , H ội th ao q u ố c tỉia lần th ứ XI " M ộ t số \ ầ n dẻ
c h ọ n lọc c ú a C ô n g n g h ệ th ô n g tin và T ru y ề n th ô n u " H uế th á n e 6 năm 2008
1 P h ạ m T h ị H u ê T im k iê m th ô n g tin th e o các c ặ p tliLiộc tinh eiá trị trcn m ạim
n g a n g h à n g có c ấ u irúc
03 c ư n h â n n g à n h C ô n g n g h ệ th ô n g tin
s r r H ọ và lèn sin h v iên l ẻn k h o a luận lỏl im hiệp
I N g u y ê n V iệ t B á c h K h a o sát d ộ c â n bãntí tai cua niạiie n e a im haim c lio r d
2 H o à n g N g ọ c K h á n h Ị X â y d ự n g giao th ứ c mạiiLí niìanu h à n e cỏ cấ u truc C h o rd
3 T r ầ n r h a n h T ù n g X â y d ự n íi ứntí d ự n a tìm kiêm th ô n g tin d ư a trên íiiao Ihức
c ủ a m ạ n e n e a n g h à n g có c à u trúc
• K ế t q u ả ứ n é d ụ n e
- C ó k h ả n ă n g ứ n e d ụ n g uiai p h á p tim k iê m thônti tin theo ” iá trị th u ộ c tinh trôn
m ạ n g n g a n ií hàne; có c ấ u trúc đê x â v d ự n g các hệ ih ỏ im tìm k iè m th ô n u tin th ư \ iện tài liệu h o ặ c q u ả n lÝ h ồ s ơ
Trang 27[4] B C o h e n , ‘‘In c e n tiv e s b u ild ro b u s tn e s s in b itto r re n t” In 1st W o r k s h o p on the
In te r n a tio n a l C o n f e r e n c e o n D is trib u te d S y s te m s P la tfo rm s, N o v 2001
[7] s , R a t n a s a m y p F ra n c is , M Ila n d lc y an d R K arp " A Sciilable C o n te n t-
A d d r e s s a b l e N e tw o r k " , In P r o c e e d in g s o f A C M S I G C O N 'lM 'O l , A u g 2001
[8J w A d j i e - W i n o to E S c h w a rtz H B a la k r is h n a n an d .1 Lillcv, ■■ I h e D c sm n and
I m p l e m e n t a t i o n o f a n I n te n tio n a l N a m iim S \ s t e m s " In I’ro c e e d in u s o f A C M
S y m p o s i u m o n O p e r a t i n ụ S y s te m s P rin cip les, Dec 1999
[9] A C a r z a n ig a , D R o s e n b l u m an d A W olf “ D e sim i an d E v a lu a tio n o f a W ide-
A r e a E v e n t N o t i i lc a t i o n Service'", vol 19 no, 3 A C M T r a n s a c tio n s on C o m p u te r
I n f o r m a tio n S e r v i c e s ” In P r o c e e d i n g s o f the S e c o n d In te rn a tio n a l C o n f e r e n c e on
P e e r - t o - P e e r C o m p u t i n g , pp 3 4 - 4 0 2002
[1 31 M B a la z in s k a , H B a la k r is h n a n a n d D K a rg e r " I N S /T w in e : A S c a la b le Peer- to-i^eer A r c h i te c t u r e for In te n tio n a l R e s o u r c e Discox e n " In P r o c e e d in g s o f
In te r m itio n a l C o n f e r e n c e o n P e r v a s iv e C o m p u tin g A u g u s t 20 0 2
[14] J G a o a n d p S te e n k is te " D e s iu n an d E v a lu a tio n o f a D is trib u te d S c a la b le
C o n t e n t D i s c o v e r ) ' S > s te m " IE E E J o u rn a l on S e le c te d A re a s in C o m m u n i c a t io n s Januar>', Jan u a r> 2 0 0 4
26