Bài viết tập trung nghiên cứu và so sánh hiệu suất hệ thống trong các trường hợp độ sao lưu dữ liệu có giá trị khác nhau, từ đó giúp người vận hành hệ thống Map-Reduce có thêm một tiêu chí để chọn các thông số hệ thống phù hợp. Mời các bạn cùng tham khảo!
Trang 1Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
iu Phi Tác V Trong H Thng MAP-REDUCE
Hunh Tn t Hc viên Khoa Công Ngh Thông Tin II
Hc Vin Công Ngh Bưu Chính Vin Thông
Email: dathuynhtan@gmail.com
Bùi Xuân Lc Khoa K Thut
i Hc Tân To Email: locbui@ieee.org
Abstract— Vn d liu a phưng là mt vn quan trng
c n xem xét khi thit k thut toán iu phi công vic cho h
th ng Map-Reduce Gn ây, bài báo k thut [13] ã gii quyt
ưc vn d liu a phưng bng vic xut mt kin trúc
hàng i mi và mt thut toán iu phi tác v ánh x (map
task) d a trên chính sách JSQ (Join the Shortest Queue) kt hp
v i chính sách MaxWeight Tuy nhiên, bài báo [13] ch xem xét
tr ưng hp sao lưu d liu là mt giá tr c th bng 3 Trên
th c t, tu thuc vào cu hình h thng, sao lưu d liu có th
l n hn hoc nh hn 3 Trong bài báo này, chúng tôi m rng
nghiên c u ca bài báo [13] và so sánh hiu sut h thng trong
các tr ưng hp sao lưu d liu có giá tr khác nhau, t ó
giúp ng ưi vn hành h thng Map-Reduce có thêm mt tiêu chí
chn các thông s h thng phù hp
Keywords- in toán ám mây, Map-Reduce, d liu a
ph ưng, Hadoop
I GIITHIU Ngày nay, chúng ta ang sng trong thi i thông tin, vi
s tng trưng bùng n thông tin theo cp s nhân Nhng
công ty hàng u v công ngh thông tin như Google, Yahoo!,
Amazon, Microsoft, Facebook, Twitter… ang i mt vi
mt khi lưng d liu khng l S tng trưng này òi hi
các chin lưc mi x lý và phân tích d liu in toán
ám mây ưc phát trin và Map-Reduce/Hadoop ang là mt
mô hình tính toán mnh m ưc ng dng trong in toán
ám mây Vic x lý các tp d liu quy mô ln ã tr thành
mt vn ngày càng quan trng và y thách thc vi s
lưng d liu ưc to ra bi các mng xã hi trc tuyn,
nghiên cu khoa hc… Map-Reduce/Hadoop [9]-[15] là mt
framework n gin nhưng mnh m x lý các tp d liu
quy mô ln trong môi trưng phân tán và x lý song song, và
ang ưc s dng rng rãi trong thc t Mt cm máy tính
Map-Reduce có th bao gm hàng chc ngàn máy tính [2] Các
d liu ưc lưu tr thưng ưc t chc trên h thng phân
phi tp tin (ví d h thng tp tin Google (GFS) [10], h thng
tp tin phân tán Hadoop (HDFS) [4]) trong ó phân chia mt
tp d liu ln thành nhiu on d liu và lưu tr thành nhiu
bn sao (mc nh là 3 bn sao) ca mi on d liu trên các
máy tính khác khau Mt yêu cu x lý d liu trong
framework Map-Reduce ưc gi là mt công vic (job) bao
gm hai loi tác v: “map” (“ánh x”) và “reduce” (“gim”)
Mt tác v “map” c mt on d liu và x lý nó to ra
kt qu trung gian (các cp khoá – giá tr) Sau ó tác v
“reduce” ly kt qu trung gian và thc hin các tính toán
thêm to ra kt qu cui cùng Khi thc hin các tác v
“map”, mt trong nhng xem xét quan trng là vic phân b tác v gn vi máy tính lưu tr khi d liu u vào cho tác v
ó; vn này còn ưc gi là vn d liu a phưng.
i vi mi tác v, chúng ta gi mt máy tính là mt máy tính a phưng cho tác v nu on d liu liên quan n tác v này ưc lưu tr ngay ti máy tính ó, và chúng ta gi tác v này là mt tác v a phưng trên máy tính Trong trưng hp còn li (ngha là d liu cn thit cho tác v không ưc lưu tr ti máy tính), máy tính ó ưc gi là máy tính t xa cho tác v, và tưng ng vi tác v này ưc gi là tác v t
xa trên máy tính Tính a phưng nên ưc xem xét n trong vic phân b các tác v “map” chy trên các máy tính Vic ci thin tính a phưng có th gim thi gian x lý ca các tác v “map” và lưu lưng ti t mng khi mt vài tác v
“map” cn ly d liu t xa Tuy nhiên, vic gán tt c các tác v n các máy tính a phưng có th dn n mt s phân phi không ng u ca các tác v gia các máy, tc là mt s máy b tc nghn trong khi các máy khác nhàn ri Vì vy chúng ta cn phi cân bng gia các d liu a phưng và cân bng ti trong Map-Reduce ây chính là ng lc thúc y các nhà nghiên cu tìm hiu, ci tin, xut các thut toán mi nhm nâng cao hiu qu s dng và hiu sut h thng Mt s thut toán iu phi ưc xut trưc ây trong h thng Map-Reduce/Hadoop ci thin d liu a phưng Thut toán FIFO scheduler trong Hadoop [12] vi vic iu phi mt máy sn sàng phc v tác v “map” t công vic head-of-line vi d liu gn nht n máy tính Mc dù mt vài ti ưu hoá a phưng ã ưc thc hin, vn head-of-line blocking a phưng vn tn ti và hiu sut thông lưng vn b hn ch Thut toán Fair Scheduler trong Hadoop [6] vi k thut iu phi chm tr ưc s dng ci thin a phưng Khi mt máy tính yêu cu mt tác v mi, nu công vic ưc
iu phi tip công bng không có tác v a phưng sn có cho máy tính này, thì công vic tm thi b qua và máy tính kim tra các công vic tip theo trong danh sách K t khi máy tính ưc gii phóng nhanh, nhiu tác v a phưng ưc phc v Tuy nhiên, máy tính ang rnh s ưc gii thiu t mt máy sn sàng có th b qua tt c các công vic khi nó không th tìm mt tác v a phưng và vic cân bng gia thi gian rnh và a phưng là không rõ ràng Thut toán iu phi Quincy ưc thit k cho Dryad [7] vi mt mô hình phân phi máy tính cho phép lưu d liu phc tp hn Map-Reduce Quincy s dng tng s d liu truyn như n v o a
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 2phưng và mã hoá nó vào trong mô hình giá Sau ó, quyt
nh iu phi ưc thc hin bng cách gii quyt vn chi
phí thp nht Ngoài ra, còn có rt nhiu công trình nghiên cu
ã xut thut toán iu phi gii quyt vn ci thin
d liu a phưng trong Map-Reduce và ưc trin khai trong
thc t Tuy nhiên chưa có công trình nghiên cu nào ưa ra
thut toán iu phi công vic có th t ưc min dung
lưng y (full capacity region) gim thiu thi gian ch
i và tc nghn trong mt cm máy tính Map-Reduce
Vi tình hình ó, mt kin trúc hàng i mi và mt thut
toán iu phi tác v “map” ã ưc xut gn ây trong bài
báo k thut [13] Kin trúc và thut toán này gii quyt ưc
vn d liu a phưng bng vic t ưc min dung lưng
y nhm gim thiu thi gian ch i và tc nghn trong
mt cm máy tính Map-Reduce Kin trúc hàng i này gm
mt hàng i a phưng tưng ng vi tng máy tính lưu
tr các tác v a phưng cho các máy này và mt hàng i
chung cho tt c các máy tính Da trên kin trúc hàng i này,
các tác gi nghiên cu mt thut toán iu phi tác v ánh x
(map) vi hai giai on: khi mt tác v mi n nó s ưc
chuyn n mt trong 3 hàng i tưng ng vi 3 máy tính a
phưng hoc hàng i chung bng chính sách Join the Shortest
Queue (JSQ) và khi mt máy tính rnh nó s chn mt tác v
t hàng i a phưng tưng ng vi nó hoc hàng i chung
bng cách s dng chính sách MaxWeight [14]
Có th d dàng thy rng các tác gi ca [13] ch xem xét
trưng hp sao lưu d liu bng 3 (ngha là mi on d
liu có 3 bn sao ưc lưu tr 3 máy tính khác nhau) Trên
thc t, tu thuc vào cu hình h thng, sao lưu d liu có
th ln hn hoc nh hn 3 Trong bài báo này, chúng tôi m
rng nghiên cu ca bài báo [13] bng vic xem xét và so sánh
hiu sut h thng trong các trưng hp sao lưu d liu có
giá tr khác nhau C th, chúng tôi chng minh lý thuyt và
mô phng h thng dùng công c mô phng OMNeT++ cho
trưng hp sao lưu d liu K có giá tr tng quát; ng thi
so sánh hiu sut ca h thng vi các trưng hp dưi ti
(underload), gn ti (load), và quá ti (overload) Chúng tôi tin
rng nhng kt qu có ưc s giúp ngưi vn hành h thng
Map-Reduce có thêm mt tiêu chí chn các thông s h
thng phù hp
Phn còn li ca bài báo ưc t chc như sau Trong phn
II, chúng tôi miêu t mô hình h thng Trong phn III, chúng
tôi trình bày chng minh lý thuyt v ti ưu hoá thông lưng
Phn IV cung cp các kt qu mô phng Cui cùng, chúng tôi
kt lun bài báo trong phn V
II MÔHÌNHHTHNG
Chúng tôi xem xét mt mô hình thi gian ri rc cho mt cm
máy tính bao gm M máy tính, ưc ánh s th t 1, 2, …,
M Chúng tôi gi nh rng mi công vic n yêu cu mt tác
v “map”, và mi tác v “map” yêu cu mt mu d liu u
vào Chúng tôi cng gi s rng mi mt mu d liu ưc
sao lưu K (K > 1) máy tính khác nhau Vì vy mi tác v
liên quan n K máy tính a phưng Phi mt mt thi gian
dài hn cho mt máy tính x lý mt tác v nu on d liu
cn ly d liu u tiên Các tác v có th phân loi theo các máy tính a phưng mà chúng liên kt vi nhau i vi mi tác v chúng tôi gán ch s ca K máy tính cc b theo mt trt t tng dn vào trong mt vector hình thành các loi tác v:
∈ , , … , ∈ 1,2, … , , < < ⋯
<
Các ký hiu ∈ ch rng máy tính m là mt máy tính a
phưng cho kiu tác v Chn ký hiu ℒ biu th cho tp
hp các kiu công vic tn ti trong cm và = ℒ
A Quá trình n và quá trình phc v
Cho biu din tng s lưng kiu công vic n h thng cho n thi im bt u ca khe thi gian t Chúng tôi gi s rng quá trình n là hàm tng theo thi gian vi tc
n Ti mi máy tính thi gian phc v công vic ưc gi s là tuân theo phân phi hình hc (geometric distribution) Tham s phân phi hình hc cho mt công vic ti mt máy tính a phưng là và ti máy tính t xa là Quá trình phc v ca mt công vic có th ưc xem như là mt chui các
s kin c lp vi xác sut thành công (hoc ) và chui s kin s dng mt khi chúng ta có mt s thành công tc là mt công vic ã hoàn thành Trong mô hình này chúng tôi gi
s > , ngha là, thi gian phc v trung bình ca công vic
a phưng là ít hn thi gian phc v công vic t xa Chú ý
rng các giá tr khác nhau ca và th hin hiu qu x lý khác nhau i vi d liu a phưng
B Thu t toán iu phi công vic (task scheduling algorithm)
iu phi công vic là vic gán các công vic n các máy tính x lý Vi vn d liu a phưng, thut toán iu phi công vic có th nh hưng áng k n hiu qu ca h thng Trong bài báo này, chúng tôi xem xét mt thut toán
iu phi công vic bao gm hai phn, nh tuyn và iu phi, ưc xut trong bài báo k thut [13] H thng iu phi bao gm mt kin trúc hàng i ưc minh ho bi Hình
1 Máy Master duy trì mt hàng i các công vic cc b cho
mi máy tính m, ưc ký hiu là và ưc gi là hàng i cc b Có mt hàng i chung cho tt c các máy tính ưc
ký hiu là (hoc ôi khi ngưi ta ký hiu ) và ưc gi là hàng i chung t xa (common remote queue) Chúng tôi dùng mt vector chiu dài hàng i = , … ,
, ký hiu cho chiu dài các dàng i ti thi
im bt u ca khe thi gian t Khi mt công vic n, máy
Master nh tuyn công vic này n mt hàng i trong h thng hàng i Khi mt máy tính là idle, nó chn mt công vic t hàng i a phưng tưng ng hoc hoc t hàng i chung t xa phc v Hai bưc này ưc minh ho trong
Hình 1 Chúng ta gi bưc u tiên là nh tuyn (routing) và bưc th hai là iu phi (scheduling) Thut toán c th như sau
B ưc 1 - Join the Shortest Queue (JSQ) Routing: Khi mt
công vic n, máy tính Master s so sánh chiu dài hàng i ca K hàng i cc b và hàng i chung t xa và sau ó nh tuyn n mt hàng i có chiu dài ngn nht Cho
Trang 3Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
và biu din các công vic ưc giao tưng ng vi
và Các công vic ưc giao n cho mi hàng i có
th ưc biu din bng vector n
= , … , , ưc nh ngha như sau:
= ,, = 1,2, … ,
=
Hình 1: Kin trúc hàng i và thut toán iu phi
Bưc 2 - MaxWeight Scheduling: Nu mt máy tính m va
hoàn thành mt công vic ti khe thi gian t-1, thì trng thái
làm vic ca nó là idle Nu không, máy tính phi thc hin
mt công vic a phưng hoc mt công vic t xa Cho
= , 1, 2 biu din tưng ng cho 3 trng thái: idle,
ang thc hin mt công vic a phưng, và ang thc hin
mt công vic t xa Vector trng thái làm vic =
, , … , và vector chiu dài hàng i
ưc báo cáo v cho máy tính Master ti thi im bt u ca
khe thi gian t và máy tính Master quyt nh iu phi cho
tt c các máy tính da trên và Các máy tính idle
ưc iu phi bi thut toán MaxWeight: gi s máy tính m
là idle ti slot thi gian t, thì nó phc v mt công vic a
phưng nu và phc v mt công vic t
xa cho các trưng hp khác Các máy tính khác tip tc thc
hin các công vic chưa hoàn thành tc là thc hin các công
vic không ưu tiên Cho biu din quyt nh iu phi
ca máy tính m ti slot thi gian t, thì nó là mt hàm ca
và và
=1,
2
Lưu ý rng cho bit hàng i máy tính m ã ưc iu
phi phc v Nó ch có giá tr 1 hoc 2 k t khi ưc iu
phi phc v mt công vic a phưng hoc mt công vic
t xa Nu máy tính m không idle tc là = 12,
chúng ta thit lp iu phi bng vi Tuy nhiên,
nu máy tính m là idle tc là = , là 1 hoc 2
ưc quyt nh bi máy tính Master bng thut toán MaxWeight Chúng tôi dùng vector iu phi =
, , … , biu din quyt nh iu phi cho tt c các máy tính
C ng hc hàng i (queue dynamics)
Trong khe thi gian t, u tiên máy tính Master kim tra thông tin trng thái làm vic và chiu dài hàng i Sau ó các công vic n ti máy tính Master và máy tính Master thc hin nh tuyn và iu phi, cho ta thông tin
Chúng tôi nh ngha:
= , = = 1,
= , = = 2
Vi nh ngha trên, dch v t máy tính m cho hàng i a
phưng và hàng i t xa là hai bin Bernoulli
và Do ó, các dch v ưc áp dng cho mi hàng i có th ưc biu din
bng vector dch v = , … , ,
vi
tc dch v hoc Khi ó chiu dài các hàng i tho mãn các phưng trình sau:
Hàng i a phưng (Local queues): vi m=1,2, …, M,
1 = , trong ó:
= 1,
=
Hàng i t xa (Remote queue)
1 =
, trong ó:
=
,
∈
vi là tp các máy tính mà nó phc v mt vài công vic t hàng i t xa ti slot thi gian t Chú ý rng có th có mt vài máy tính c gng phc v hàng i t xa nhưng tht bi do thiu công vic
Chúng ta có th vit li phưng trình ng hc hàng i như sau:
1 = , (1)
vi = , … , ,
Trong trưng hp thi gian phc v là xác nh, quá trình hàng i , là chui Markov Tuy nhiên thi gian phc v trong mô hình này là ngu nhiên và không ng nht
do vn d liu a phưng Do ó chúng ta cn xem xét thêm các vector trng thái làm vic ; c th, cùng
vi s to thành chui Markov , , Chúng ta gi nh trng thái ban u là , =
, và không gian trng thái
,1,2 bao gm tt c các trng thái mà nó có th t ưc
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 4t trng thái ban u, vi là tp s nguyên không âm D
thy rng chui Markov này là ti gin (irreducible) và không
tun hoàn (aperiodic)
III TIUHOÁTHÔNGLNG
Trong phn này, chúng tôi s chng minh tính nng ti ưu hoá
thông lưng ca thut toán iu phi ưc trình bày phn
trưc Chú ý rng tính nng này ã ưc chng minh trong bài
báo k thut [13] vi trưng hp K=3; trong phn này chúng
tôi m rng chng minh vi trưng hp K tng quát
Ý tưng ca chng minh như sau: Trưc tiên chúng ta xác
nh min chn ngoài (outer bound) ca min dung lưng ca
h thng Sau ó chúng ta chng minh rng thut toán iu
phi trên có th n nh hoá bt k vector tc n nào
thuc min chn ngoài này (n nh hoá theo ngha các hàng
i u n nh và không tng theo thi gian) iu ó có
ngha là thut toán iu phi trên là ti ưu thông lưng, và
min dung lưng cng trùng vi min chn ngoài
A Min dung lng (capacity region)
i vi bt k kiu công vic ∈ ℒ, chúng ta gi nh rng s
lưng kiu công vic n ưc phân b n máy m có tc
,, vi = ,
Tp tc ,∈ℒ,,…,
ưc gi là mt phân tích (decomposition) ca vector tc
= , , … , Vi vector tc n , xét mt máy
tính m bt k, iu kin cn h thng ưc n nh là khi
lưng tác v trung bình ưc phân b cho máy tính m trong
mt khe thi gian có th ưc phc v ht trong khe thi gian
ó, có ngha là:
,
∈
,
∉
trong ó v trái là thi gian máy tính m cn có phc v
lưng tác v trung bình phân b cho nó trong mt khe thi
gian, vi tc dch v cho công vic a phưng và cho
công vic t xa
Gi Ʌ là tp giá tr tc n mà mi phn t phân tích ca nó
tho mãn (2) C th:
Ʌ = = , , … ,
= ,
, , ∀ ∈ ℒ, ∀ = 1, … ,
,
∈
,
∉
≤ 1, ∀ = 1, … ,
D thy rngɅ chính là min chn ngoài ca min dung lưng
ca h thng
B Tính ti u thông lng (throughput optimality)
nh lý 1: Thut toán iu phi ưc xut Phn II.B có
th n nh h thng vi vector tc n bt k thuc min
chn ngoài Ʌ Do ó thut toán này là ti ưu thông lưng và Ʌ cng là min dung lưng ca h thng
Ch ng minh:
Chng minh này tưng t như chng minh ca nh lý 1 trong bài báo k thut [13], tuy nhiên, [13] ch xét trưng hp
K=3 Vi trưng hp K tng quát, ta thy rng tp ℒ (tp hp
các kiu công vic) s thay i, và = ℒ cng thay i Tuy nhiên, chng minh ca nh lý 1 trong [13] vn có th ưc m rng cho trưng hp K tng quát Vì lý do gii hn v dài bài báo, chúng tôi ch nêu ý tưng chng minh ây và mi ngưi c tham kho bài báo [13] v chi tit Ý tưng ca
chng minh như sau: Vì , , là mt chui Markov ti gin và không tun hoàn, s n nh ưc nh ngha là s hi quy dưng (positive recurrence) ca chui Markov này Da theo nh lý Foster-Lyapunov m rng, ta ch cn tìm mt s dưng T và mt hàm Lyapunov sao cho trôi ca hàm Lyapunov (Lyapunov drift) sau T khe thi gian b chn nu bên trong mt tp con hu hn ca không gian trng thái và là âm nu bên ngoài tp con này C th hàm Lyapunov ưc chn có dng:
, = =
Khi ó ta có th chng minh rng (tham kho chi tit trong [13]) trôi Lyapunov sau T khe thi gian t t0 ưc chn bi
, ≤ 2 vi hng s > nh ngha tp ß = , ∈ ⋯ ≤ vi
> bt k Khi ó ß là mt tp con hu hn ca không gian trng thái vi , ∈ ß, , ≤ và , ∈
ß, , ≤ iu này tho mãn nh lý Foster-Lyapunov m rng và hoàn thành chng minh
IV KTQUMÔPHNG Trong phn trưc chúng tôi ã chng minh tính ti ưu hoá thông lưng ca thut toán iu phi ưc xut ngay c vi
sao lưu d liu K tng quát Tuy nhiên, câu hi ưc t ra
là hiu sut h thng ca thut toán iu phi thay i th nào vi các giá tr K khác nhau Chúng tôi s tr li câu hi ó trong phn này vi các kt qu mô phng
Chúng tôi mô phng thut toán vi các giá tr sao lưu d liu: K = 2, 3, 4, 6, 8, 10, và so sánh hiu sut ca h thng vi các trưng hp dưi ti (underload), trong ti (load) và quá ti (overload) Tiêu chun ánh giá da vào tng s lưng các tác v còn tn ti trong các hàng i a phưng và hàng
i t xa sau mi khe thi gian
Chúng tôi thc hin mô phng trên h thng vi 400 máy tính và mt tp d liu ưc phân b ng u trên 320 máy trong s ó Thi gian phc v cho tác v a phưng và tác v t xa tuân theo phân phi hình hc vi tham s tưng ng
là = .8 và = .2 Vì vy tng dung lưng ca h thng (tính theo s tác v n trong mt n v thi gian) bng = 320α + 80γ = 272 Tng thi gian chy ca h thng là 2000
n v thi gian
Trang 5Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
B ng 1 cho thy kt qu trung bình theo thi gian ca tng
s lưng tác v còn trong hàng i (tưng ng vi tng chiu
dài ca tt c các hàng i) vi các giá tr khác nhau ca tc
tác v n () và sao lưu d liu (K) Kt qu này cng
ưc th hin trong th Hình 2 C th, Hình 2 biu din
s bin thiên ca tng chiu dài trung bình hàng i theo s
thay i ca tc tác v n ng vi các trưng hp K = 2,
3, 4, 6, 8, 10 Ta có th thy rng khi tc n nh (dưi ti
– underload), tng chiu dài trung bình hàng i tng dn khi
K tng dn, ngha là giá tr K nh s có hiu sut cao hn trong
trưng hp này Tuy nhiên, khi tc n tng dn (ti tng
dn), tng chiu dài trung bình hàng i ng vi giá tr K nh
tng nhanh hn tng chiu dài trung bình hàng i ng vi giá
tr K ln c bit, khi tc n gn ti (gn dung lưng h
thng), tng chiu dài trung bình hàng i gim dn khi K
tng dn, ngha là giá tr K ln s cho hiu sut cao hn
Hình 2: Hiu sut thông lưng h thng
B ng 1: Kt qu s lưng công vic trung bình trong h thng
CCCCCCSSCC
260 8277 7673 7608 7209 7280 6788
272 22941 22514 22456 22042 22205 21752
300 57792 57420 57438 57050 57246 56792
K tip, chúng tôi xem xét quá trình thay i ca tng chiu
dài hàng i theo thi gian ng vi các giá tr khác nhau ca
và K
A Tr ng hp di ti (underload)
Vi trưng hp này chúng ta cho h thng chy vi tc tác v n = 100 (tác v trong mt n v thi gian) Chy vi K = 2, 3, 4, 6, 8, 10 vi thi gian 2000 n v thi gian Chúng ta theo dõi tng s lưng tác v tc thi trong h thng quan sát s n nh Hình 3 cho thy con s i din này n nh theo thi gian, qua ó thy rõ s n nh ca h thng Vi kt qu như Hình 3 chúng ta thy rng hiu sut h thng vi sao chép d liu K = 2, 3, 4, 6, 8, 10 luôn luôn n
nh theo thi gian Tuy nhiên vi trưng hp này sao chép d liu K = 2 tt hn các trưng hp khác
Hình 3: Kt qu trưng hp = 100
B Tr ng hp gn ti (load)
Vi trưng hp này chúng ta cho h thng chy vi tc tác
v n ln lưt là = 200 (tác v trong mt n v thi gian),
= 250 (tác v trong mt n v thi gian), = 260 (tác v trong mt n v thi gian), và = 270 (trong mt n v thi gian) Chy vi K = 2, 3, 4, 6, 8, 10 vi thi gian 2000 n v thi gian
Vi kt qu như Hình 4, Hình 5 chúng ta thy rng tng s lưng tác v tc thi trong h thng vn n nh theo thi gian Kt qu Hình 6, Hình 7 cho thy tng s lưng tác v tc thi trong h thng có chiu hưng quá ti Tuy nhiên vi các trưng hp này sao chép d liu K = 10 tt hn các trưng hp khác
Hình 4: Kt qu trưng hp = 200
K
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 6Hình 5: Kt qu trưng hp = 250
Hình 6: Kt qu trưng hp = 260
Hình 7: Kt qu trưng hp = 270
C Tr ng hp quá ti (overload)
Vi trưng hp này chúng ta cho h thng chy vi tc tác
v n ln lưt = 272 (tác v trong mt n v thi gian),
= 300 (tác v trong mt n v thi gian) Chy vi K = 2, 3,
4, 6, 8, 10 vi thi gian 2000 n v thi gian
Vi kt qu Bng 1 chúng ta thy rng ng vi c hai giá tr
trong trưng hp này tng s lưng tác v trung bình theo thi
gian là tưng ưng nhau cho tt c các giá tr ca K, và h
thng luôn luôn quá ti
V KTLUN Trong bài báo này chúng tôi ã k tha và m rng kt qu nghiên cu ca các tác gi W Wang, K Zhu, L Ying, J Tan,
và L Zhang trong bài báo k thut [13] cho trưng hp sao lưu d liu có giá tr tng quát Trong h thng Map-Reduce thc t, sao lưu d liu là mt thông s quan trng và chúng tôi tin rng nhng kt qu có ưc trong bài báo này s giúp ngưi vn hành h thng Map-Reduce có thêm mt tiêu chí chn các thông s h thng phù hp
TÀILIUTHAMKHO
[1] C Abad, Y Lu, and R Campbell (2011), “DARE: Adaptive data
replication for efficient cluster scheduling” in IEEE Int Conf Cluster
Computing (CLUSTER), pp 159–168
[2] G Ananthanarayanan, S Agarwal, S Kandula, A Greenberg, I Stoica,
D Harlan, and E Harris (2011), “Scarlett: coping with skewed content
popular in MapReduce clusters” in Proc European Conf Computer
Systems (EuroSys), pp 287–300
[3] J Dean and S Ghemawat (2008), “MapReduce: simplified data
processing on large clusters” ACM Commun, vol 51 (no 1), pp 107–
113
[4] K Shvachko, H Kuang, S Radia, and R Chansler (2010), “The hadoop
distributed file system” in IEEE Symp Mass Storage Systems and
Technologies (MSST), pp 1–10
[5] L Tassiulas and A Ephremides (1992), “Stability properties of constrained queueing systems and scheduling policies for maximum
throughput in multihop radio networks” IEEE Trans Autom Control,
vol 4, pp 1936–1948
[6] M Zaharia, D Borthakur, J Sen Sarma, K Elmeleegy, S Shenker, and
I Stoica (2010), “Delay scheduling: a simple technique for achieving
locality and fairness in cluster scheduling” in Proc European Conf
Computer Systems (EuroSys), pp 265–278
[7] M Isard, V Prabhakaran, J Currey, U Wieder, K Talwar, and A Goldberg (2009), “Quincy: fair scheduling for distributed computing
clusters” in Proc ACM Symp Operating Systems Principles (SOSP),
Big Sky, MT, pp 261-276
[8] S T Maguluri and R Srikant (2013), “Scheduling jobs with unknown
duration in clouds” in Proc IEEE Int Conf Computer Communications
(INFOCOM), Turin, Italy
[9] S T Maguluri, R Srikant, and L Ying (2012), “Heavy traffic optimal
resource allocation algorithms for cloud computing clusters” in Int
Teletraffic Congr (ITC), Krakow, Poland
[10] S Ghemawat, H Gobioff, and S.-T Leung (2003), “The google file
system” in Proc ACM Symp Operating Systems Principles (SOSP), pp
29–43
[11] S Kavulya, J Tan, R Gandhi, and P Narasimhan (2010), “An analysis
of traces from a production MapReduce cluster” in Proc IEEE/ACM Int
Conf Cluster, Cloud and Grid Computing (CCGRID), pp 94–103 [12] T White (2010), Hadoop: The definitive guide, Yahoo Press
[13] W Wang, K Zhu, L Ying, J Tan, and L Zhang, (2013), “MapTask scheduling in MapReduce with data locality: Throughput and
heavy-traffic optimality”, in Proc IEEE Int Conf Computer Communications
(INFOCOM), Turin, Italy
[14] L Tassiulas and A Ephremides (1993), “Dynamic server allocation to
parallel queues with randomly varying connectivity” IEEE Trans Inf
Theory, vol 39, pp 466–478
[15] http://hadoop.apache.org [16] https://omnetpp.org