Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu (Đồ án tốt nghiệp)
Trang 1B GIÁO D O
I H C DÂN L P H I PHÒNG -o0o -
ÁN T T NGHI P
Trang 3Ngành: Công Ngh Thông Tin
Sinh viên th c hi n: Nguy n Chí Thanh
ng d n: Nguy n Tr
Mã s sinh viên: 1212101002
Trang 4B GIÁO D O
I H C DÂN L P H I PHÒNG
C NG HÒA XÃ H I CH T NAM
c l p T do H nh phúc -o0o -
NHI M V THI T K T T NGHI P
Sinh viên: Nguy n Chí Thanh Mã sinh viên: 1212101002
Trang 5NHI M V TÀI
1 N i dung và các yêu c u c n gi i quy t trong nhi m v tài t t nghi p
a N i dung:
- Tìm hi u v các thành ph n công ngh và qu n lý Big data
- Tìm hi u mô hình x lý d li u phân tán MapReduce
- Tìm hi u h th ng Hadoop
- Th nghi m v i các công c gi i quy t bài toán
b Các yêu c u c n gi i quy t
- N c các thành ph n công ngh Big data
- N c nguyên lý ho ng mô hình Map Reduece
- Áp d ng ki n th c trong xây d ng ph n m m th nghi m
2 Các s li u c n thi thi t k , tính toán
Trang 6- Tìm hi u v các thành ph n công ngh và qu n lý Big data.
- Tìm hi u mô hình x lý d li u phân tán MapReduce
- Tìm hi u h th ng Hadoop
- Th nghi m v i các công c gi i quy t bài toán
tài t t nghi c giao ngày 0
n nhi m vSinh viên
Trang 7PH N NH N XÉT TÓM T T C A CÁN B NG D N
ng c tài t t nghi p (so v i n i dung yêu c ra trong nhi m v tài t t nghi p)
m c a cán b ng d n m ghi b ng s và ch )
Cán b ng d n chính (Ký, ghi rõ h tên)
Trang 8Ngày
Cán b ch m ph n bi n(Ký, ghi rõ h tên)
Trang 9L I C
Qua th i gian h c t p và nghiên c u t i h c Dân l p H i Phòng,
u tiên em xin chân thành c c t i th y giáo GS.TS NG n
trang thi t b giúp chúng em h c t p và nghiên c u trong th i gian qua
Em xin chân thành c i t t c th y giáo, cô giáo trong nhà ng.Em xin chân thành c ác th y giáo cô giáo trong B môn Tin h c
tr c ti p gi ng d y cho em nh ng ki n th c b ích
c bi t em xin chân thành c y giáo Nguy n Tr
th i gian làm t t nghi p v a qua, th u th i gian và tâm huy
ng d n em th c hi tài này
t qu c a quá trình tìm hi u và nghiên c t
c trong th i gian v a qua M c dù r t c g c th
u bi t và kinh nghi m c a mình còn h n ch nên có th
Nguy n Chí Thanh
Trang 10M C L C
M C L C 2
DANH M C HÌNH 4
DANH M C B NG 5
DANH M C T VIÊT T T 6
L I M U 7
CÔNG NGH QU N LÝ D LI U L N 9
1.1 Công ngh n n t ng áp d ng cho Big data 9
1.1.1 Tìm hi u các thành ph n công ngh Big data 9
1.1.2 o hóa và h tr tính toán phân tán 16
1.1.3 Ki 24
1.2 Qu n lý d li u l n 36
1.2.1 d li u ho ng 36
1.2.2 Thi t b và kho d li u l n 49
XÂY D NG KHO D LI N 51
2.1 Khám phá d li u phi c u trúc 51
2.2 Tìm hi u v n 52
2.3 Phân tích và k thu t khai thác 54
2.3.1 Tìm hi u thu th p thông tin 56
2.3.2 Nguyên t c phân lo i 57
2.4 t qu cùng v i d li u có c u trúc 57
2.5 li u l n s d ng 58
2.6 Công c n cho Big data 60
2.6.1 Attensity 60
2.6.2 Clarabridge 60
2.6.3 IBM 61
2.6.4 OpenText 61
2.6.5 SAS 62
Trang 11HADOOP VÀ TH C NGHI M 63
3.1 Gi i thi u h th ng Hadoop 63
3.1.1 Mô hình x lý d li u phân tán Mapreduce 63
3.1.2 Hadoop n n t ng l p trình theo mô hình Mapreduce 66
3.1.3 Xây d ng m y trên n n Hadoop 73
3.2 Th c nghi m 76
ng d t Hadoop cluster 76
3.2.2 Kh ng h th ng 80
K T LU N 87
TÀI LI U THAM KH O 88
Trang 12DANH M C HÌNH
Hình 2-1: M u h c g i 52
Hình 3-1: Mô hình t ng quát c a Mapreduce 63
Hình 3-2: Quá trình Split 64
Hình 3-3: Quá trình Mapper và Shuffle trên m t máy 64
Hình 3-4: Quá trình Reduce 65
Hình 3-5: Các thành ph n c a Hadoop cluster 67
Hình 3- ho ng c a JobTracker và TaskTracker trong Hadoop 68
Hình 3-7: Ki n trúc Master/Slave c a h th ng t p tin phân tán Hadoop 70
Hình 3-8: Nhân b n block trong HDFS 71
Hình 3- c d li u trên HDFS 72
Hình 3-10: Quy trình ghi d li ng d n 72
Hình 3-11: Quá trình ho ng c a m t tác v MapReduce trên Hadoop 76
Hình 3- p vào tài kho i dùng hduser 80
Hình 3-13: Kh ng Hadoop 80
Hình 3-14: Ki m tra Hadoop 81
Hình 3-15: Trang qu n lý Hadoop All Aplications 82
Hình 3-16: Trang qu n lý Hadoop Namenode 82
Hình 3-17: Trang qu n lý Hadoop SecondaryNamenode 83
Hình 3-18: Trang qu n lý Hadoop Directory 83
Hình 3-19: T t Hadoop 84
Hình 3-20: T c vidu 84
Hình 3- c vidu 85
Hình 3- c t o 85
Hình 3- c vidu vào hdfs 86
Trang 13DANH M C B NG
B ng 2-1: Chuy b n phi c u trúc thành d li u có c u trúc 53
B ng 2-2: Truy v n, khai thác d li u, tìm ki n 54
B ng 2-3: K t h p d li u có c u trúc và d li u không có c u trúc 58
Trang 15L I M U
S phát tri n c a xã h i d n bùng n d li u trong nh ng th p niên g n
ng s n ph m công ngh m i nhi u ti n ích trong cu c s ng,
t , tr c tuy n, các website c a nh ng doanh nghi p t ch c phát tri n
Ngày nay kh ng d li u vô cùng l n, kích c
D li c thu th p t nhi u ngu n khác nhau bao g m: d li u không gi i
h n t internet, web 2.0, t các thi t b nghiên c u (d li ch v y
t li u t các thi t b thông minh (hay còn g
mang c u trúc không c nh.Big data
Trang 17CÔNG NGH QU N LÝ D LI U L N
1.1.1 Tìm hi u các thành ph n công ngh Big data
li u có ki u khác nhau t cao Nhi n m m d y d n kinh nghi m
và các nhà phát tri n bi nh n m t th m chí là hai tình hu ng này hoàn toàn d dàng Ví d , n u b n ph i m t d li u l n c n gi i quy t cùng
v i yêu c u kh u l i, b n có th l a ch n tri n khai c d li u
d li u v h t ng m ng r t nhanh
t , n u yêu c u là k t h p nhi u lo i d li u khác nhau t s hi u bi t và các ngu n thông tin n danh, l a ch n có th là xây d ng m t mô hình di chuy n kho d li u theo yêu c u c a khách hàng
nhau d a trên m t giao d ch hay m t câu h i có yêu c u t r t
kém
Trang 18Nh i thi t k h t ng nên l p k ho ch cho h th ng m ng
s n v t ch n vi c tri n khai th c hi h t ng c a b n nên
u hành có th ph n ng tài
i kh ng công vi c
Trang 19M t thi t k quan tr ng c n quan tâm là qu n lý ho h t ng
M c cao nh t v hi u su t và tính linh ho t ch xu t hi n trong m ng
Trang 20- Mã hóa d li u: Mã hóa d li u là thách th c l n nh t v b o m t trong
ph n d li u nào c n b o m mã hóa các m c c n thi t
- Phát hi a: Bao g m các thi t b ng và các m ng xã h i theo
u quan tr ng là các t ch c có cách ti p c n vòng ngoài an ninh
1.1.1.3 Giao di n ng d ng và Internet
h t ng v t lý cho phép t t c m i th h t ng an ninh b o
v t t c các y u t ng Big data Các c ti p theo là các giao
di n mà cung c p truy c p hai chi u cho t t c các thành ph n c a Stack t các
ng d ng doanh nghi n d li u t Internet M t ph n quan tr ng c a vi c thi t k các giao di n này là t o ra m t c u trúc phù h p có th chia s c bên
vi c tri n khai ph n m m Các nhà cung c p công c và công ngh
t o ra các ng d ng m i s d ng s n ph m c a h Nó c n thi t cho các chuyên
t o ra tùy ch nh ho c quy n cho công ty B n c n làm
u này cho l i th c nh tranh, m t s nhu c u nghi p v i là
doanh nghi p Vì lý do này, m t s công ty l a ch s d ng b công c API
c m c nh y v ho ng quan tr ng này
B công c API có m m so v i các API phát tri n n i b u tiên là b công c API là s n ph c t c qu n lý và duy trì b i m t bên th ba d c l p Th c thi t k gi i quy t m t yêu c u kthu t c th N u b n c n các API cho ng d ng web ho c ng d ng, có nhi u l a ch n cho b n b u
Trang 21B i vì thu th p d li u và chuy m r t gi ng nhau, có ththi t k m t b d ch v thu th p, làm s ch, bi i, chu
các d li u l n trong h th t o ra s linh ho t khi c n thi t, các
u khi n cùng v i mô t giao di c vi t b ng Extensible Markup Language (XML) M này cho phép các giao di n c th c t o
ra m t cách d dàng và nhanh chóng mà không c n ph i xây d ng các d ch v
c th cho t ng ngu n d li u
1.1.1.4 d li u ho ng
lõi c a ng Big data là nh d li u ch a các ph n d li u
n công ty c a b n Không có s l a ch n duy nh
n ngôn ng d li u M c dù SQL là ngôn ng thông d ng truy v
Ví d n u b n s d ng m t mô hình quan h , b n có th s d truy
là r t quan tr hi u các d ng d li u có th u khi n b d
vi này v
- Atomicity (M c nguyên t ): M t giao d t c ho
khi nó m c nguyên t N u b t c ph n nào c a giao d ch ho c nh ng
vì là d li u l n nên k thu x lý d li u hi u qu và liên t c
Trang 22T ch c d ch v d li u, trong th c t là m t h sinh thái c a các công c
và công ngh có th c s d thu th p và t ng h p s li y các công c c n tích h p, d ch thu t, chu n hóa, ph m vi Công ngh trong l p này bao g m:
- M t h th ng t p tin phân ph i: c n thi thích ng v i s phân tách
c a các lu ng d li u và cung c p kh
- D ch v chuy i c u trúc: c n thi t cho vi d li u b n v ng
- D ch v u ph i: c n thi t cho vi c xây d ng ng d ng phân tán
- n, bi i, t i (ETL): c n thi t cho vi c t i và chuy i c u trúc phi c u trúc vào Hadoop
- D ch v ti công vi c: c n thi t cho vi c l p k ho ch và cung c p
m t c ng b hóa y u t quá trình trên l p
1.1.1.6 Kho d li u phân tích
Các kho d li u t c coi là các k thu t chính mà các t ch c s
các kho d li ng thu th p t nhi u ngu n khác nhau và l p rá t o
u ki n phân tích c a doanh nghi p Kho d li n hóa vi c t o ra các
kho d li u và phân tích m t siêu kho d li u v i các quá trình th c thi Thay
n có th s có kho d li u ho c siêu kho d li u, hi u su t và quy mô
s ph n ánh k p th i yêu c u c a các nhà phân tích và ra quy nh
Trang 23B i vì kho nhi u d li u và siêu kho d li c bao g m các d li u thu
th p t nhi u ngu n khác nhau trong công ty, các chi phí liên quan n vi c làm
Trong l ch s , các n i dung c a kho d li u và siêu kho d li c t
cho vi c ra quy nh Nhi u tri n khai d li u l n cung c p kh i gian
th c, vì v y doanh nghi p s có th cung c p n i dung cho phép các cá nhân v i
doanh, và th c thi d ch v trong th i gian th c g n B ng cách này, d li u l n
1.1.1.7 Phân tích Big data
Hi n t i công c phân tích k thu t và s r t h u ích trong vi
a d li u l n Tuy nhiên, có m m Các thu t toán là m t
ph n c a nh ng công c có th làm vi c v i m ng l n có kh
b o r ng các thu t toán c a h làm vi c qua vi c tri n khai phân ph i
- Báo cáo và bi : Nh ng công c này cung c p m i di n "thân thi n" c a thông tin t các ngu n khác nhau M c dù là m t tr c t trong th gi i d li u truy n th ng, chúng v i v i d
li u l n M t s công c c s d ng là lo i m i c a d
li u g i chung là NoSQL
Trang 24- Hình dung: Nh ng công c c ti p theo trong quá trình báo
ng trong tnhiên M t khác bi t quan tr ng gi u ra và hình dung là
các d li u s d ng m t lo t các k thu t hi n th khác nhau, bao g m
ng, báo cáo và hình dung x y ra ph n cu i c a các ho ng kinh doanh M c dù các d li u có th c nh p kh u vào m t công c khác
- Phân tích: Nh ng công c ti p c n vào kho d li u và x lý d li u cho
i dùng
1.1.1.8 Nh ng ng d ng c a Big data
s và ki m tra các ngu n d li u l n M c dù t t c các l p c a ki n trúc tham
kh o r t quan tr ng trong quy n riêng c a h , l m h u h i
phát tri n ph n m m c n nhanh chóng t o ra các ng d ng phù h gi i quy t
nh ng thách th c kinh doanh c a th m này Các công ty có th c n ph i suy
ng kinh doanh b ng cách t o và tri n khai các ng d ng theo yêu c u Trong
1.1.2 o hóa và h tr tính toán phân tán
o hóa là m t công ngh n n t ng áp d i v i vi c th c hi n toán
li u l n Nó cung c cho nhi u thu c tính n n t ng c n thi truy c , phân tích và qu n lý các thành ph n tính toán phân tán
ng d li u l n o hóa - quá trình s d ng tài nguyên máy tính
b c các ngu n l c khác
-ngu n l c CNTT hi u qu và kh r ng M t ng d ng chính c a o
Trang 25hóa là h p nh t máy ch , giúp các t ch c nâng cao vi c s d ng các máy ch
o hóa phân tách ngu n l c và d ch v t ng phân ph i v t lý
n, cho phép b n t o ra nhi u h th ng o trong m t h th ng v t lý duy
thi n hi u su t và hi u qu x lý k t h ng c a các kh ng công vi c Thay vì ch nh m t nhóm dành riêng cho các ngu n l c v t ch m i nhóm
th c hi n nhi m v , m t nhóm g p tài nguyên có th nhanh chóng phân btrên t t c các kh ng công vi c S ph thu c vào bi n tài nguyên o cho phép các công ty c i thi tr cung c p d ch v và hi u qu
là m t ch a b n ch t phân tán c ng o hóa và giúp c i thi n t ng th th i gian t i giá tr
S d ng m t b phân ph i các ngu n l c v t ch t, ch ng h ,
m t cách linh ho t và hi u qu mang l i l u ki n c n ti t
ki m chi phí và c i thi t Vi c th c hành có nhi u l i ích, bao g m nh
phép c i thi trong vi c s d ng các ngu n l c này
- o hóa cho phép c i ti n ki m soát vi c s d ng và hi u su t c a ngu n
l c CNTT
- o hóa có th cung c p m t m t ng hóa và tiêu chu
- o hóa cung c p n n t
M c dù có th s d ng b sung ngu n l c song o hóa không
ph i là không t n chi phí Tài nguyên o ph c qu m b o an toàn
M t hình nh có th là m t k thu t cho k l xâm nh p truy c p tr c ti p vào trong h th ng N u công ty không có m t quá trình xóa nh ng hình nh không
s d ng, h th ng s không còn ho ng hi u qu
Trang 26t ng d li u l n thành hi n th c M c dù v y, o hóa là k thu t không ph i là
- Cô l p: M i máy c phân tách t h th ng v t lý máy ch và máy
o khác N ng h p máy o treo, các máy o khác và các h
s gi a máy o và máy khác
là m t t p tin duy nh t, vì v y b n có th nh nó m t cách ddàng d a vào các d ch v mà nó cung c p Ví d , t p tin có ch a các
là m t d ch v kinh doanh hoàn ch nh Máy o
c trình bày cho m t ng d t th c th
can thi p vào m t ng d ng khác
M t trong nh ng yêu c u quan tr ng nh thành công v i d li u l n là
Trang 27Toàn b ng CNTT c n ph c t m i l p, t m ng
d li và máy ch N u b n ch o hóa máy ch c a b n, b n
N u b n ch t p trung vào vi c o hóa là m t y u t c h t ng c a b n,
o hóa máy ch s d cung c p hi u qu trong vi c s
d ng các ngu n l c v t ch t, c u hình và công vi c hành chính có liên
n vi c thi t l p các máy u này bao g m qu n lý gi y phép, qu n
Máy ch m b o r ng n n t ng có th m r ng khi c n thi t
x lý kh ng l ng các lo i d li u trong phân tích d li u l n
B n không th bi c m ng ho c nhi u lo i d li u có c u trúc
và không có c u trúc c n thi c khi b n b u phân tích c a b n Chính
b n v i kh n ng nhu c u b t ng x lý t p d li u r t l n
Trang 28Ngoài ra, máy ch o hóa cung c p n n t ng cho phép r t nhi u các d ch v
c s d n d li u trong phân tích Big data o hóa làm
có th tích h p thông tin này v i các d li u s n ph m bán hàng n i b t
c cái nhìn sâu s c vào s thích c a khách hàng
c ng d ng o hóa
h t ng ng d ng cung c p m t cách hi u qu qu n lý các
ng d ng trong hoàn c nh v i nhu c u khách hàng khác nhau Các ng d ng
c gói g n mà lo i b s ph thu c c a nó t h th ng máy tính v t lý bên
phép cho vi c h th ng hóa các chính sách s d ng kinh doanh và k thu
m b o r ng m i ng d ng c a b y ngu n tài nguyên o và v t lý trong m t cách d c Hi u qu c là b i vì b n có th d dàng phân ph i các ngu n l c CNTT theo các giá tr i t các ng
d ng c a b n Nói cách khác, các ng d ng quan tr ng nh t c a b n có th nh n
rút ra t máy tính s n có và kh khi c n thi t
h t ng ng d ng s d ng k t h p v i o hóa máy ch có th
m b o r ng các th a thu n kinh doanh d ch v c ng
Trang 29d li u l n o hóa m ng giúp gi m nh ng t c ngh n và c i thi n kh n
lý d li u l n phân ph i c n thi phân tích d li u l n
e B vi x lý và b nh o
o tách riêng b nh t các máy ch Trong phân tích Big data, b n có th l
l p l i các truy v n c a t p d li u l n và t o ra các thu t toán phân tích tiên
Nh ng phân tích tiên ti n có th i nhi u s c m nh x lý (CPU) và b nh
i v i m t s tính toán, nó có th m t m t th i gian dài mà không có CPU và tài nguyên b nh B vi x lý và b nh o có th
x lý và nh c k t qu phân tích c a b n s
o hóa d li u có th c s d t o ra m t n n t ng cho các d ch v
d li u liên k u này cho phép d li c d dàng tìm ki m và k t
n i thông qua m t ngu n tham kh o th ng nh t K t qu là d li u o hóa cung
c p m t d ch v tr ng mà không ph thu d li u v t lý bên
i Ngoài ra, d li u o hóa cho th y nhi u d li cho t t c các
ng d c i thi n hi u su t
hàng d li u c n thi t phân tích d li u l n
Trang 30o hóa d li u và t vai trò quan tr ng trong làm cho
t hình nh o và g i b t c khi nào nó là c n thi t mà không
c n tiêu t n tài nguyên trung tâm d li u có giá tr ho c công su t
1.1.2.2 Qu n lý o hóa v i Hypervisor
Trong m t th gi ng, b n không mu n lo l ng v các h th u
n và các ph n c ng v t lý Hypervisor là công ngh có trách nhi m
m b o r ng chia s tài nguyên di n ra m t cách tr t t và l p l i, cho phép nhi u h chia s m t máy ch duy nh t Nó t o ra và ch y các máy
o Hypervisor n m m c th p nh t c ng ph n c ng và s d ng m t
l p m ng c a mã l nh cho phép chia s ng
Trong th gi i c a Big data, b n có th c n ph i h tr nhi ng
ho ng khác nhau Hypervisor tr thành m cung c ng cho các thành ph n công ngh c a các d li p l n Hypervisor cho phép
b n hi n th các ng d trên r t nhi u h th ng mà không c n ph i
th ch t sao chép ng d ng vào t ng h th ng Là m t l i ích b sung, vì ki n trúc hypervisor, nó có th t i b t k (ho c nhi u) h u hành khác nhau
th h ch là m t ng d ng khác
1.1.2.3 Tr ng hóa và o hóa
i v i các ngu n tài nguyên và các d ch v c c tách
tách bi c g i là tr ng hóa Tr ng hóa là m t khái ni m quan
toán mà t t c m i th là tr ng V i các chi ti t là tr ng hóa thì các
t d li c s n m v trí nào
Trang 31Tr ng hóa gi m thi u s ph c t p c a m t d li ng cách
n các chi ti t và ch cung c p các thông tin có liên quan Ví d , n u b
v g p u cao, màu tóc, và s m c nh ng gì H không c n
ph i cho b n bi h c sinh ra, có bao nhiêu ti n trong ngân hàng, ngày
chuy n kh ng công vi c xung quanh d a trên yêu c u cho s c m nh tính
o hóa s cho phép b gi i quy t nh ng v l
c gi i h n ph m vi o hóa s cho phép h tr m t lo t các c a hàng d li u
nh ng gì b n mu n b t c khi nào b n c n nó V i o hóa, b ng s
d ng tài s n mà b ti n b ng cách chuy n chúng các ngu n tài nguyênchung
Trang 321.1.3 Ki
S c m nh c i dùng có th truy c p vào tài nguyên máy
c n thi t v i r t ít ho c không có h tr IT hay ph i mua thêm
ph n c ng ho c ph n m m M t trong nh m quan tr ng c
vai trò quan tr ng trong th gi i d li u l n Nh i l n x y ra khi các thành ph h t c k t h p v i nh ng ti n b trong qu n lý d li u
M r ng chi u ngang và t h t ng h tr vi c th c hi n th c t
c a d li u l n
1.1.3.1
p m t t p h p các tài nguyên máy tính chia s bao g m các ng d tr , m ng, phát tri n và n n t ng tri
mây bi n tài s n máy tính b n th ng vào bi n chia s các ngu n
Trang 33M t ví d ph bi n v l i ích c n toán tr d li u l n có
th c ghi nh n c Google và Amazon.com C hai công ty ph thu c vào
kh n lý m ng l n d li di chuy n các doanh nghi p c a h
ngh có th h tr các ng d ng quy mô l n Hãy xem xét Gmail và hàng tri u
v y, Amazon.com, v i các trung tâm d li u IaaS c a nó,
hàng mà không vi ph phát tri n kinh doanh bán l c a
trên mô hình mua c a khách hàng là r t quan tr ng cho s thành công c a công
ty Các công ty này hi n cung c p m t lo t các d ch v d
li u
1.1.3.2 Tìm hi u v tri
chính trong các cu c th o lu n v d li u
s s d ng m t s k t h p c a ngu n tin máy tính (trung tâm d li u và nh ng
ch v công c u hành b i m t công ty bên
s d ng chia s c a m t lo t các khách hàng tr m t tr ng phí s
d ng) Làm th nào các công ty cân b ng cung c p công c
Trang 34a Mô hình tri
ng
ng là m t t p h p các ph n c ng, m , d ch
v , ng d ng và giao di n thu c s h u hành b i m t bên th s
d ng b i các công ty và cá nhân khác Các nhà cung c i t o ra m t
án phân tích d li u ph c t p và c n chu k x lý các nhi m
v Ngoài ra, các công ty có th ch d li u trong m
c
Trang 35M riêng là m t t p h p các ph n c ng, m , d ch v ,
ng d ng và giao di n thu c s h u hành b i m t t ch i v i vi c
s d ng các nhân viên c i tác và khách hàng M riêng có
th c t o ra và b i m t bên th ba qu n lý cho vi c s d c quy n c a
bi n nh c mô t trong các ph n sau
- h t t d ch v (IaaS): là m t trong nh ng mô hình
d ch v n toán bao g m ph n c ng, m , và không gian
d ch v mua l i m t ngu c tính cho r ng ngu n tài nguyên d a trên s ti n s d ng và th i gian s d ng mà B n tìm th y phiên b n c công c ng và cá nhân c a IaaS Trong IaaS công c ng,
i dùng s d ng m t th tín d c các ngu n l c này Khi
i dùng ng ng tr ti n, tài nguyên bi n m t Trong m t d ch v IaaS
cá nhân ng là các t ch c CNTT ho c tích h p m i t o ra
h t c thi t k cung c p các ngu n tài nguyên theo yêu
Trang 36- N n t t d ch v (PaaS): là m cho vi c k t h p IaaS
v i m t b tr ng c a các d ch v trung gian, phát tri n ph n m m,
và các công c tri n khai cho phép t ch có m t cách phù h
t o ra và tri n khai các ng d ng trên m
M t PaaS cung c p m t t p h c d ch v trung
m b o r ng các nhà phát tri n có m c th
ng PaaS mang l i s phát tri n và tri n khai
quy mô ng d ng M t PaaS yêu c u m t IaaS
- Ph n m t d ch v (SaaS): là m t ng d ng kinh doanh t o
b i m t nhà cung c p trong m t mô hình multitenant (cho
hình SaaS ng u trang c a c PaaS và IaaS n n t ng
- D li t d ch v (DaaS): là m t mô hình phân ph i DaaS liên quan ch t ch n SaaS DaaS là m t d ch v c l p n n t cho phép b n k t n i v và l y d li u c a b n Ngoài ra, b n tìm th y m t s các d ch v d li u chuyên ngành là l i ích l n trong m ng d li u l n Ví d , Google cung c p m t
d ch v mà có th x lý m t truy v n v i 5 terabyte d li u ch trong 15
1.1.3.3 t bu c cho Big data
Rõ ràng, r t nhi u s k t h p c a vi c tri n khai và chuy n giao mô hình
thành m t ph n quan tr ng c a h sinh thái d li u l n:
Trang 37- Kh r ng: Kh r n ph n c ng v
hi u su t trên m n là tài nguyên ph n c
mây có th m r ng lên t i kh ng d li u l n phân ph i máy tính,
làm vi c trên m t k ho ch tr " Vì v y, n u b n có kh ng
l n d li u, chúng có th c phân chia trên các máy ch
M c tính quan tr ng c a IaaS là nó có th t ng m r ng quy mô
ng n u b n gió lên c n nhi u ngu n l
i, b n có th nh u này g n vào các khái ni m v
h s d ng m t trình duy t ho c m t giao di n c ng thông
c các ngu n l c c n thi t Ví d ch y m t mô hình d
t l khác l so v i cách b n có th c các ngu n l c t m t trung tâm d li u, các b n s ph i yêu c u các ngu n
l c t các ho ng CNTT
Trang 38- ng th p: N u b n s d ng m t nhà cung c n toán
ng có th c gi m b t b i vì b n không mua
m ng l n ph n c ng, cho thuê không gian m i phó v i d
li u l n c a b n B ng cách l i d ng các n n kinh t c a quy mô k t
l c xây d ng trong ki n trúc c a h , cung c p d ch v không b
n b t ch p s th t b i c a m t ho c nhi u thành ph n c a h
th ng
Trong m t s tình hu ng, m t nhà cung c p d ch v không th d
d ch v c b sung t m t nhà cung c p d ch v c a bên th ba
i tiêu dùng không h bi t r i phó v i m t nhà cung c p d ch v
Trang 39- PaaS trong m toàn b h t
có th c s d thi t k , th c hi n và tri n khai các ng d ng
cho phép m t t ch c t n d ng các d ch v trung gian quan tr ng mà không c n ph i phó v i s ph c t p c a vi c qu n lý ph n c ng và
m ng l n các d li u y t Các ng d ng s s d ng th i gian th c
li u phi th i gian th c Nó s i Hadoop MapReduce
và x lý Có gì tuy t v i v PaaS trong k ch b n này là cách nhanh chóng các ng d ng có th c tri n khai B n s không ph i
gi i pháp v ng ch c, b n có th s d ng nó khi mà CNTT luôn s n sàng
h tr nó
nói c a khách hàng" d li u t nhi u kênh Nhi n ra
r ng m t trong nh ng ngu n d li u quan tr ng nh t là nh ng gì khách hàn công ty c a h , s n ph m c a h , và các d ch v c a
h Ti p c c ti ng nói c a các d li u khách hàng có th cung c p
n c a mình trên các trang web công c ng trên Internet Các giá tr u vào c a khách hàng có th
ng r t nhi u b ng cách k t h p d li u công c ng này vào phân tích
c a b n Nhà cung c p SaaS c a b n cung c p n n t ng cho vi c phân
li u truy n thông xã h i Ngoài ra, b n có th s
d ng d li u CRM doanh nghi p c a b
riêng c
M t s i trong ngành công nghi d ng các ng d ng d li u
l n khi mô t các ng d ng ch s d ng Big data Ví d này bao g m Amazon.com và LinkedIn Bây gi m t s i có th tranh lu n r ng
th c s là nh ng ng d ng SaaS gi i quy t nh ng v kinh doanh c th
Trang 40Hi n nay, m t trong nh ng nhà cung c p d ch v IaaS cao nh t là Amazon
u v i m t t xây d ng m t doanh nghi p d ch v h t ng l n
dùng, v i s d ng ph i tr cho ngu n tài nguyên theo gi Vi c s d ng các gi i h n linh ho t trong vi t tên c a EC2 c
p các d ch v d li u l n khác cho khách hàng v idanh m a Amazon Web Services c a nó Chúng bao g m nh u
- Amazon Elastic MapReduce: M c tiêu cho x lý kh ng l n d li u
trên EC2 và Amazon Simple Storage Service (Amazon i dùng
- Amazon DynamoDB: M t d ch v d li u qu n lý hoàn toàn không ch SQL (NoSQL) DynamoDB là kh u l i, tính s n sàng cao d ch v d li u cung c p t cung, kh r ng
tr ng thái r tin c y và hi u su t cao