Nhưng hiện nay, với sự phát triển của Công nghệ thông tin, nhu cầu sứ dụng tài nguyên và lưu trử dữ liệu của cơn người ngảy càng nhiều và những con số đỏ đã trở nên hết sức nhỏ bẻ Dung l
Trang 3Lời cảm ơn
Lai đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS.TS
Vương Đạo Vy và TS Lẻ Phê Đô, người thấy đã chỉ bảo và hướng dẫn lận trữ: cho tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này
Tôi xin chân thành gửi lời cảm ơn tới gia đỉnh, người thân và bạn bè - những
người luôn ở bên tôi những lúc khó khăn nhật, hiôn động viên tôi, khuyến khích tôi trong cuộc sống vả trong công việc
'Tôi xin chân thánh cảm ơn!
Tác giả Mai Văn Hà
Trang 4Lời cam đoan
“Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hop va phát triển các nghiên cứu tom tắt da văn bản trong nước và trên thể giới do tôi thực hiện
Tuân văn nảy là rdới, các để xuất trong luận văn đo chính lôi thực hiển, qua quá trình nghiên cứu đưa ra và không sao chép nguyễn ban tir bat ki một nguồn tài liệu nào
khác.
Trang 5MỤC LỤC
1.1 Sự cần thiết của kho lưu trữ dữ liệu 15
1.3.3.0 MG bin Kin 10 ae cece ssscssseressssneseseessssnseeeensieeasetssaesissee 18
c._ Điều khiển SLA(Bervice level agreement) ceases 2
b Khắc phục sự GỒ nọ 02c ren 22
c Phản mềm tự dộng cập nhật 22
Trang 6đ Miễn giảm chỉ phí đầu tư
e._ Lãng cưởng làm việc nhỏm
f Tam việc ở1uợi nơi
g Kiểm soát đữ liệu
b Một số địch vụ đám mây hư trữ hiện nay
CUUONG 2 XÂY DỰNG UE THỐNG LƯU ERỮ DÁM MÂY VỚI HADOOE
2.1 Phát biểu bài toán và lụa chọn giải pháp cà cekiserieiorre
3.1.1 Phát biếu bài toán
3.1.3, Lựa chọn giái pháp công nghệ
2.2 Địg Data HH HH hư HH ae, 22.1 Bịp Data là gì?
2.2.2, Hadoop là gÌ? ch HH HH HH game
a Giới thiệu sơ lược Apache Hadoop
b Pinh nghia vé Hadoop
Trang 72.3.4 Ghi file trên HDFS
2.4 "Triển khai cài đặt hệ thông lưu trữ đám mây với HIDES s 5225
CHƯƠNG 3 TONG QUAN VE MA HOA Diff LIRU
3.1 Sự cần thiết của mã hóa đữ liệu
3.2 Mã hỏa dữ liệu se neiirre
3.2.1 Khải niệm vẻ mã hóa thông lu
3.2.2 Thân loại các thuật toán mã hóa
3.3.1 Hệ mã hóa Caesar
3.3.2 Liệ mã hỏa Vigenere c ninh
4.1 Sự cần thiết của nén đít liệu
4.2 Nên dữ liệu cọ nHHHHnHH HH HH HH He gam rderoree 4.2.1 Định nghĩa nón đữ liệu
4.3 Quả trình nên và giải nén
4.3 Giải thuật mã hỏa LhufRman
4.3.1 Mã hóa dũ liệu trong nảy tỉnh ¬ nee
Trang 843.2 Mã phi Hiến tá - - - SỬ
4.3.3 Lý thuyết Mã Hufôman ¬ ,
b Thuật toán xây đựng cây mã Huffman SƠ
CHƯƠNG 5 GIGI THIBU BAI TOAN MA HOa VAN BAN TIENG VIBT .63
5.2 Để xuất giải pháp cho mã hóa và nón văn bên tiếng Việt 63 5.2.1 Mã hóa văn bản tiếng Việt với phương pháp mmã hóa Vigenere 63
5.2.2, Nền văn bản tiếng Việt với phương pháp mã hóa Huffman
5.2.3 Tập văn bản mẫu cho việc mã hỏa và nén văn bản Tiếng Việt 64
lệ xuất hiện của các từ 66
b Các bước để giải mã văn bản nnrrevvtrenttrrrrtrrerrree 69
6 GBI ẽốốẽẽ.ẽ
5.6.1 Yêu câu bài toán Lạ HH HH HH HH HH HH HH ruêt 70
5.6.3 Kết quả thực hiện óc neo TT
Trang 9a Nén dit ligu - - - 72
3.6.4 Giới thiệu chương trình nén và giải nên văn bân tiếng Việt TA
b Neén văn băn tiếng Việt,
TÀI LIỆU THAM KHẢO
Trang 10MỞ BÁU
động như dia mém (floopy disk) véi dung lượng khá khiêm tổn 4MB và USB thời điểm
cao nhật lúc bây giờ là 12SA4I3, Việc sở hữu một ö cứng với dung lượng 40GB đã lả đủ
lên thậm chỉ là dư thừa cho nhu câu sử dựng của cả nhân
Nhưng hiện nay, với sự phát triển của Công nghệ thông tin, nhu cầu sứ dụng tài
nguyên và lưu trử dữ liệu của cơn người ngảy càng nhiều và những con số đỏ đã trở nên hết sức nhỏ bẻ Dung lượng đữ liệu gia tăng không ngừng, yêu câu ngảy cảng cao vẻ hiệu năng truy xuất, tính Ổn định và sự sẵn sảng của đữ liệu; việc lưu trữ đã và đang trở nên rất
công ty lớn như Microsoft, Apple, Google, Dropbox, Mediafire, Rapidshare dang
cung cấp các dịch vụ lưu trữ và chia sẻ dữ liệu trên nên điện toan dam may
Tuy dap ứng được yêu cầu về việc lưu trữ, chía sẽ dữ Hiệu cũng như đụng lượng lớn nhưng việc lưu trữ qua các dâm mây cũng có những nhược diễm vẻ vẫn dễ an ninh đữ liệu trước sự tân công của tin tắc, tỉnh pháp lý liên quan đến các dữ liệu được lưu trữ trên
mang
Mục tiên của luận văn này nhằm nghiên cứu giãi pháp xây đựng kho lưu trữ dữ liệu
hiệu quả và an toàn, bảo mật đứ hệu người dùng dựa trên việc xây đựng các thuật toàn
mã hỏa phục vụ cho việc má hóa văn bản, nền và gidi tiền vần ban theo ngôn ngữ Tiếng ViệL
Thông qua việc phân tích từ (từ đơn, từ ghép) trong tiếng Việt và áp dụng vào cáo giải thuật mã hóa, qua đỏ nâng cao hiệu quã của việc mã hóa cũng như nén dữ liệu trong kho
lưu trữ an toản
10
Trang 11Nhiệm vụ của luận văn là:
Phân tích cáo văn bản tiếng Việt mẫu, từ đỏ xây đụng các bộ thư viện mẫu cho
việc thiết lập bd ma Huffman
Thống kê tuân suất xuất hiện của các từ đơn, từ kép trong văn bản tiếng Việt,
Nghiên cứu mã Vigiener cho việc mã hóa vẫn bản tiếng Việt đựa trên kết quả của
việc phân tích Tiếng Việt
Nghiên cứu giải thuật HuÊfman cho nén và giải nén văn bản
Áp dịng bộ thứ viện mẫu từ tiếng Việt
Nghiên cứu mô hình kho lưu trữ dữ liệu
ê xây đụng bộ mã Hufinan
Pham vỉ nghiên cứu:
Nghiên cứu mã hóa văn bản tiếng Việt đựa trên mã Vigiener
Nghiên cứu nén các văn bân tiếng Việt dua trên thuật toán Huffman
Xây dựng kho lưu trữ dữ liệu với các văn bán Tiếng Việt đã được tiên và mã hóa,
đảm bảo tối wu đụng lượng lưu trữ cũng như đảm bảo tính riêng tư của nguời sử
dụng
Phương pháp nghiên cứu:
Nghiên cửu giái pháp xây dựng kho lưu trữ đản may
Nghiên cứu thuật toán mã hoa Ilufftnan che việc nén và giải nén các văn bản
Nghiên cứ thuật toán mã hỏa Vipiener,
Xây đựng một bộ thu viện dữ liệu cho việc phân tích văn bản tiếng Việt
Nghiên cứu và tia cơ chế phân tích các văn bản tiếng Việt thành các từ don, tir
ghép phục vụ cho việc nén dữ liệu
Sử đựng cáo công cụ lập trình để xây dựng phần mềm phue vụ cho việc nén và
giải nén các văn bản tiếng Việt
Nội dung Luận văn gầm các chương:
Chương 1 Téng quan về kho lưu rữ đữ
‹_ Sự cần thiết của kha lưu trữ
c Các khái niệm về Kho lưu trữ
co Tam tra fam may
Chương 2 Xây dựng hệ thống lưu trữ đám mây với Iadoop
c Hải toán
c Tìm hiểu về Big data
11
Trang 12c_ Hadeop Distribufcd File System — LIDF'S
c_ Triển khai cài đặt hệ thống lưu trữ đám mây với IIDFS
Chương 3 Tổng quan về mã hứa dữ liệu
co Sw cin thiết của mã húa dữ liệu
Chương 4 Tổng quan về nén vả giải nén
c_ Sự cẩn thiết của nén đữ liệu
œ Nên dữ liệu
c_ Giải thuật mã hóa Hufman
Chương 5 Giới thiệu bài toán mã hóa văn bán tiếng Việt
©o Yêu cầu bài luân
©_ Xử lý văn bản tiếng Viét
o¿_ Xây dung bé ma Huffman
c Nén va ma hoa van bản tiếng Việt
Kết luận
Tài liệu tham khảo.
Trang 13DANH MỤC HÏỈNH
Tinh CLIL2 - | Cau trúc của hệ thông kho lưu trữ -cctnrienceisrer 16
Hình CLUE3 1 M6 hình kiến trúc lưu ưữ dám mậy, ceceoesoe T8
11ình CL.HL.6.b — L ONHDRIV, à cà nneiiereirsreereeeroeroee ĐỘ Hình CL.HE6.b — 2 Dropbox Ătsnhnnnerererirerreeoeroee T7)
Hinh CILIV 3 Mô hình xây dựng phần mềm ClHent tương tác HDES 43
Hình CHI.H.2.c-L Mô hình mã bắt dỗi xửng, co eceeeeereeeecee 47
Hình GII.H.2.f-1 Mỏ hình mã hỏa khỏa bị mật soeoi co đĐ
Hình CTTLTL.3.g-1 Mã hóa thông điệp sử dụng khóa công khai SỐ 1lình CHLH.2.g-2 Giải mã thông điệp sử đụng khóa riêng - SỐ
Trang 14Hình CIH.ILL Mã Caesar với độ địch là 3 - |
Hình vuông Vigenere hay bảng Vigenare, công cụ của phép mã hóa Vigenere 52
Hình CTV.IL2 - 2 Quá trình giải nén đữ liệu SỐ linh CIV.HL2.b 1 Xây dựng mãiiuffman bưởel SỞ
linh CIV.HL2.b 4 Xây dựng mãliuffman bướe4 OD Hình CHITL3 — 1 Độ giao giữa các Tập văn bản mẫu 65
Hình CIH.TT-I Mô hình liệt kê tỷ lệ xuất hiện của các từ trong Tiếng Việt 67
Tlinh CIILEV I Mô hình xây dựng bộ mã lluffiman
Tĩnh CIH.V.2 — Mô hình nén văn bản Tiếng Việt với mã hóa Vigenerc
14
Trang 15CHƯƠNG 1 TONG QUAN VE KHO LUU TRU DU LIEU
1.1 Sự cần thiết của kho lưu trũ dữ liệu
Cùng với sự phát triển không ngừng và nhanh chẳng của khoa học công nghệ, đặc biệt
là công nghệ thông tin, trì thức của cơn người ngày cảng được nâng cao, vai trò và ÿ nghĩa của lưu lrữ tài liệa ngày cảng được coi lrọng và khẳng định
Với Internet không chỉ diễn ra sư giao tiếp, phỏ cập thông, tin mà còn hình thành nền một thị trường thang tin hang hỏa rộng lớn, nhiều tiêm năng Bên cạnh đó, do yêu cần của
quá trình hội nhập đang điển ra mạnh mẽ, việc công khai minh bạch các văn bản, chỉnh
sách của nha nước đến mọi đối Lượng trở thành vần để bất buộc Đặc tiệt vide nang chat
lượng thông lin phục vự tửm cầu nghiên cứu, quyết định dau lư, sân xuấi, kinh tế, vẫn hóa, xã hội, lịch sử, truyền thắng đang rất dược chủ trọng Một trong những nguồn
thông tin đặc biệt là thông tin từ tài Hệu lưu trữ
Mặt khác đưới góc độ quản lý nhà nước, việc bảo quân và sử đụng có hiện quả tải liệu
tưu trữ có ý nghĩa cực kỳ quan trọng đổi với kinh tế, xã hội, lịch sừ của môi quốc gia và
địa phương
Với các doanh nghiệp hoạt động kinh doanh, oác dữ liệu của doanh nghiệp phát sinh
ngày càng nhiều, ngoài những thông tin sản phẩm, dịch vụ thì các thông tin liên quan đến
sự tương tác với khách hàng như việc tham gia trò chuyện, yêu câu tư vân vả thực hiện
các so sánh vẻ giá cả, chật hượng Người ta muốn tận dung nguân đữ liệu nảy đề sử
dung cho những mục đích tổ trợ cho công việc kinh doanh ví đụ như cho mục đích thống,
kê hay phân tích
Vi vay, song song với chương trình cung cấp thông tín qua Internet và hệ thống thông
tin viễn thông khảo thi việc ímg đựng các công nghệ, kỹ thuật hiện đại vào bảo quản lâu
đài các tài liệu điện tử có giá trị (dẫn thay cho phương pháp bảo quản truyện thông) trã
thành nhiệm vụ cấp bách của công Tác lưu trữ
1.2 Kho lưu trữ
liêu lưu trữ bằng thiết bị điện tử của một tổ chức Các kho đữ liệu dược thiết kế dễ hỗ trợ
việc phân tích đữ liệu vá lập bản cáo.
Trang 16Định nghĩa cô điển này về kho dữ liệu tập trung vào việc lưu trữ đữ liêu Tuy nhiên, các phương tiên cho việc lấy và phân tích, trích rút, biến đổi, nạp dữ liệu, và quản ly dit liệu từ điển cũng được coi là các thành phản cốt yêu của một hè thông kho dữ liệu
1.2.1 Khái niệm
Kho dữ liệu là một tập các dữ liêu có những đặc điểm sau: tập trung vảo một chủ đề, tổng hợp từ nhiều nguồn đữ liệu khác nhau, từ nhiễu thời gian, và không sửa đôi Được
dùng trong việc hồ trợ ra quyết đình trong công tác quản lý
1.2.2 Cấu trúc của một hệ thống kho dữ liệu
Tầng đáy: Là nơi cung cấp dịch vụ lây dữ liệu từ nhiều nguồn khác sau đó chuẩn hóa,
làm sạch và lưu trữ dữ liệu đã tập tung
Tầng giữa: cung cấp các dịch vụ đề thực hiện các thao tác với kho dữ liêu gọi la dich
vụ OLAP (OLAP server) Có thể cải đặt bằng Relational OLAP, Multidimensional OLAP
hay ket hop cả hai mô hình trên Hybrid OLAP
'Tầng trên cùng: nơi chứa các câu truy vẫn, bảo cảo, phân tích
16
Trang 171.3 Lưu trữ đám mây
Những năm gân đây, lưu uữ đảm ruây đã hở thành tuội trong các dịch vụ “đám mây”
phổ biến nhất Với công nghệ lưu trữ đâm mây người đúng không phải phụ thuộc vào các thiết bị lưu trữ vật lý như ó cứng, USB, DVD, CD vả có thể truy cập, tải lên, tải về, đồng bộ hoá đữ liệu ở bất kỹ nơi đầu và trên nhiêu loại thiết bị khác nhau như desktop, laptop, các thidt bj di déng
Với việc nghiên cứu công nghệ lưu trít đảm mây, luận văn này tập trang tìm hiểu và xây dụng thử nghiệm một ứng đựng lưu đứ liệu trên HDES vận hành trên mối trường Linux — CentOS và nến lãng JAVA để xây đựng một kho lưu trữ dữ liệu theo mô hình
đảm mây lưu trữ
1.3.1 Công nghệ lưu trũ dám mây
TIệ thống lưu trữ đám mây có dang kết nổi mạng theo mồ hình kết nổi mạng tới trưng, tâm đữ liệu, với các tiêu chuân và giao thúc kết nổi yêu cầu về bảo mật, để người dùng có
thế khai thác được địch vụ này
Người dùng gửi dữ liệu tởi trung tâm dữ liệu thông qua các kết nối mạng, trung tâm
đữ liệu sẽ lưu dữ liệu và ghỉ lại những thông tin cần thiết khác Khi người dùng muốn lây
thông tin, họ phải truy cập vào trung tâm đữ liệu thông qua các giao điện người dửng
(giao diện phản mềm, giao diện web ) Sau khi được chứng thục người dùng, trung
tâm đữ liệu sẽ thực hiện xác định người đừng được phép truy cập vào khu vực đám mây
lưu trữ nào với những quyền gì
Đổ đáp ứng cho một đảm mấy lưu trữ cân các thành phản phần cứng, phần mềm dáp
tp được nhu cầu tỉnh toán của một mô hình dam may hve tri
Một hệ thống đám mây lưu trữ được xây dung từ một lay nhiều máy chủ dữ liệu, số
lượng mấy chủ phụ thuộc vào mô hình đấm mây được sử dụng
Một hệ thông máy tính thường yêu câu cân được bảo trì và sửa chữa, vì thế phải có
cơ chế lưu trữ cùng một đữ liệu trên nhiều may tinh khac nhan
13.2 Các loại hình đảm mây lưu trữ
Một số mö hình dâm mày lưu trữ thông dụng hiện nay:
Trang 18Đám mây lưu trữ tải liệu: lưu trữ tài liêu dùng đẻ đọc vả thao tác trên các tải liệu
nay, vi dy: Google Does
Đám mây lưu trữ hình ảnh: lưu trữ hinh ảnh dùng để xem vả thao tác trên đó, vi dụ: Flickr, Picasa
Đám mây lưu trữ e-mail: Lả loại lưu trữ đữ liệu thư
Đám mây lưu trữ phim: Lả loại cho phép người dùng tải các đoạn phím của mỉnh và
chia sẻ với người khác, ví dụ: Youtube
1.3.3 Mô hình kiến trúc
Kiên trúc của đám mây bao gồm
- Nén tang dam may (Cloud Platform)
- Cae dich vu dam may (Cloud Service)
- Coséha tang dam may (Cloud Infrastructure)
-_ Lưu trữ dam may (Cloud Storage)
Điện toán đám mây có thể coi như một tập hợp dịch vụ, tập hợp nay có thể được trình
bay như một kiến trúc phân tầng theo
Möhinh truyền thống Hạtắngtộptrung - Chuẩnhỏacängnghệ Chuẩnhỏanghiệp vụ
Hình CI.HI.3— 1 Mô hình kiên trúc lưu trữ đảm mây
- SaaS (Software as a Service — phần mềm như là dịch vụ): là tầng đỉnh của kiến
trúc SaaS cho phép người dùng chạy các ứng dụng từ xa của đám mây
18
Trang 19- IaaS (Infrastructure as a Service ha tang cơ sở như là dịchvu): là tải nguyễn điện toán được cung cấp như là một địch vụ Dó là cáo máy tính được áo hóa với năng lực xử lý được đảm bão và băng thông dự trữ đñ để lưa trữ và truy nhập
Tricrnel
- PaaS (Platform as a Service nên tổng như là dịch vụ) tương tự laaS, ngoài ra cón
có các hệ điều hành và dịch vụ cần thiết cho một ứng dụng cụ thể Nói cách khác, PaaS là laaS công thêm một số phần mềm riêng dành cho một ứng dụng cho trước
+ dSaaS (data Storage as e Serviec — lưu trữ dữ liệu như là địch vụ) cung cấp không,
gian lưu trừ mà khách hàng có thể sử dụng, bao gôm cá bãng, thông lưu trữ
a SaeS
Các ứng đụng nghiệp vụ được tô chức bởi các nhà cùng cấp và chuyển giao như mội địch vụ Saa8 có nguồn gốc từ nhà cung cấp địch vụ (ASP — Application Service
Providers)
Ban dau, phan mém nhu một dich vu (SaaS) không chỉ đơn giản thục hiện trên
Internet, vi lợi ich an ninh va dé tin cay, cdc dich vy nay sé sit dung mang riéng ao (VPN
— Virtual Private Networks) Mét VPN có thể tạo một mạng công cộng từ mạng cục bộ
(bang cách sử dụng một số hình thức mã hóa) thay vi phải mua kết nổi chưyên dụng, việc nay cho phép trayền dữ liệu an toàn qua mạng công công như Tntemiet
Ví dụ về phần mềm địch vụ như: Yahoo Mai, Facebook, Skype, GoogleApps Mat
số công ty sử dụng trang xã hội Facebook như là một mạng nội bộ miễn phí cho nhân viên
của minh Skype được sử đụng bởi các đoanh nghiệp nhỏ trên toàn thể giới, GoogleApps
có tới hơn mệt triệu doanh nghiệp sử dụng,
b TuaS
Co sé ha tang như một dịch vụ (IaaS) là việc phân phối phần cứng máy tính (máy chú,
dich vụ, nó cũng có thể bao gồm
công nghệ mạng, lưu trít và không gian dít liệu) như m
việu cưng cấp các hệ thống điều hành và các công nghệ äo hóa quản lý tái nguyên
Với laaS, khách hang thuẻ tài nguyên thay vi việc mua và cải đặt đữ liệu vào trung
tâm đử liệu của họ Dịch vụ thường được trả tiên theo lượng tài nguyên sử đụng Dịch vụ
có thê mở rộng nêu khách hang có nhu cảu sử đựng nhiều tải nguyên hơn so với ban đâu,
Họ có thể nhận được ngay lập Lúc khi có yêu câu Khả năng mỡ rộng lĩnh hoại của cơ số
18
Trang 20ha tang cho phép nỏ mở rộng hoặc thu hẹp bủy theo yêu càu của ứng dụng Ngoài ra, tham
số cung cấp liên quan đến cắp độ dịch vụ được thỏa thuận
c PaaS
“Trong nên tăng như một dich vu (PaaS Platform as a Service), nha cung cấp sẽ cung, cấp nhiều hơn cơ sở hạ tảng, nó có thể coi như một ngăn xếp các giải pháp — một tập hợp các tải nguyên yêu câu đề nhà phát triển có thể xây dựng ứng dụng gồm cá phin mém va
thời gian chạy Paa5 có thể coi là phát triển của địch vụ Web hosting Trong cáo nằm gân
đây các công ty địch vụ Web hosting cũng cung cấp các gới phản mém kha hoan chinh để xây đựng các trang Web PaaS có ý tưởng xa hơn, đó là cung cấp một nên tảng bao gồm toàn bộ các Hên trình trong vẻng đời phát triển của phẩn mềm: phân tích, thiết kế, xây
đựng, kiếm thủ, triển khai và bảo trì Lợi ích chính của PaaS là phát triển và triển khai
phân mềm dựa hoàn toan vào dịch vụ đám mây, do đó không có quản lý và bảo trí, quá
trình phát triển từ giai đoạn thiết được thực thủ trên đảm mây PaaS tao ra tính răng,
đông, có thể mở rộng, thu hẹp, cung cap dia chi cụ thể và các dịch vụ tiêu chuẩn cho truy
xuất và bảo ruật dữ liệu của khách bàng Một số vi du vé các nêu tầng như một dịch vụ
(PaaS): Google App Hngine, Applet, Htelos, Qrimp, Force.com
1.3.4 Đặc điểm của Đăm mây
a Tự sửa chiữa
Bất kỳ ứng đụng hoặc dịch vụ nào dang chạy trong một môi trường dign toan dam xnây có một tính chất tự sửa chữa Trong trường hợp ứng dụng lỗi, luôn luôn cỏ ruột dự
phỏng tức thời của ủng, dụng sẵn sảng đẻ cho công việc không bị gián doạn Có nhiêu bán
sao của cùng một ủng dụng - mỗi bản cập nhật chỉnh nó thường xuyên vỉ vậy ở những,
lần lỗi, có it nhất một bản sao của ứng dụng có thẻ lây lên hoạt động má thậm chỉ không, cần thay đổi nhỏ nào trong trạng thái hoạt động của nó
b._ Lượng tray cập lớn
Với điện toản đảm mây, bất kỳ ứng dụng nào cũng hỗ trợ đa người dùng trong củng
thời gian Hệ thông cho phép một số khách hàng chia sẽ oơ sở hạ tảng đưạc phân bố cho
thợ mã không ai trang họ nhận biết về sự chia sẻ này Diễu này được thục hiện bởi việc ão hóa các máy chủ trong một đâi các máy tỉnh và sau đẻ cấp phát các máy chủ đến nhiều
Trang 21người sử dụng Điều này dược thực hiện theo cách má trong đỏ sự riêng tư ca người sử đụng và bảo mật của đữ liệu của họ không bị tổn hại
Hệ thẳng Điện toán đám mây bao gồm nhiều các địch vụ, những địch vụ như vậy
được Tạo ra từ những địch vụ rời rae khác Nhiễu dịch vụ được tạo ra do sự kết hợp của
nhiều địch vụ độc lập lại với nhan dé tao thành, Điều này cho phép việc tái sử dụng các dịch vụ khác nhau sẵn có hay đang được xây dựng
e Diu khién SLA(Service level agreement)
Thông thường các doanh nghiép sé théa thuận trước về số lượng các địch vu Nhung
yêu cầu mở rộng và các vin để phát sinh trong quá trình hoạt động, phát triển có thể là
ch các thỏa thuận này bị phá vỡ Tuy nhiền, các dịch vụ điện toàn đám mày là hưởng SLA(Service level agreement), nhu việc khi hệ thống có dạt mức dinh của tải, nó sẽ Lự
động diều chính chính nó để tuân thủ các thỏa thuận ở cấp độ dịch vụ Các dịch vụ sẽ tạo
ra thêm những thục thể của ứng dụng trên nhiều server dé cho việc tải có thể dé dang
quan lý
£ Khã năng do hóa
Cáo ứng dụng trong điện toán đám mây hoàn toàn tách rời khỏi phần cứng năm bên dưới Môi trường điện toán đảm mãy là một môi trường áo hóa đây dit
& Tink ứng dụng linh hoạt
Một tính năng khác của cáo địch vụ điện toán đám mây là chúng linh hoạt Chúng số
thể được dùng
dụng nhỏ cho đến ứng đụng thương mại lớn
phục vụ rất nhiều loại công việc có khối lượng khác nhau từ một ứng
Trang 221.3.5 Lợi ích của công nghệ lưu trữ đám mây
& Tỉnh linh hoạt
Khi một doanh nghiệp cần nhiều băng thông hơn thông thường, dịch vụ dựa trên nên tảng điện toản đám mây có thẻ đáp ứng yêu cầu đó ngay lập tức nhờ dung lượng lớn của
dịch vụ máy chủ tử xa
Trên thực tê, tính linh hoạt là yếu tổ mang tỉnh quyết định Theo một khảo sát của
trang InformationWeek, 65% người được hỏi cho rằng “khả năng nhanh chóng đáp ứng
yêu cầu” là lý do quan trọng đề họ chuyên sang dùng điện toản đám mây,
b_ Khắc phục sự cỗ
Hình CH-IH.S.b— 1 Truy cập đảm may
Với các địch vụ đựa trên nên tăng điện toán đám mây, doanh nghiệp khong can những
kế hoạch khắc phục sự cổ phức tạp Điện toán đám mây sẽ giải quyết hau hét nhimg van
để phát sinh nhanh chỏng hơn Tập đoàn Averdeen thấy rằng những doanh nghiệp sử
dụng điện toản đám mây cỏ thẻ khắc phục sự có trung bình trong 2.1 tiếng,nhanh hơn gần 4 lần so với các doanh nghiệp không sử dụng điện toán đám mây (§ tiếng) Một nghiên cứu tương tự cũng cho thấy một doanh nghiệp cỡ vừa có thời gian khôi phục tốt
hơn, chỉ bằng một nửa thời gian so với các doanh nghiệp lớn
e_ Phần mm tự động cập nhật
Theo một số liệu tổng hợp, năm 2010, các doanh nghiệp ở Anh mat 18 ngảy làm việc
mỗi tháng chỉ để quản trị an ninh mạng Nhưng giờ đây điện toán đảm mây sẽ thực hiện
22
Trang 23huôn việc báo trí máy chủ, bao gồm cả việc cập nhập an ninh mạng, giúp khách hàng tiết kiệm thời gian vả nguồn lực cho những công việc khác
d_ Miễn giảm chỉ phí đầu ñr
Dịch vụ điện toán đám mây thường được chi trá tủy theo mức sứ dụng, vì vậy doanh
nghiệp hoàn toàn không cần chí phí đầu tư tài sân cổ định ban đầu Ngoài ra, điện toán đám mây được triển khai nhanh hơn, doanh nghiệp sẽ có chi phi dau tư ban đâu thấp va
chỉ phi vận hành có thế được đự đoán trước
£ Tăng cường làm việc nhỏm
Điện toán đám mây giúp tăng cường làm việc nhóm thông qua việc cho phép nhân viên — ở bất cứ đâu — đêu có thể đảng bộ và tiếp tục lâm việc với dữ liện, đồng thời chia
sé cae ứng dụng với nhau Điện toán đám mnây cũng cho phép theo sát và cập nhập dữ liệu
theo thời gian thực tế
‘Mét khio sat cia Frost & Sullivan cho thay những doanh nghiệp đầu tư vào công nghệ
Jam việc nhớm có tỷ lệ hoàn vốn đầu tư lên đến 400%
f Lam vide 6 moi noi
Chỉ cần truy cập được internet, nhân viên có thế làm việc ở bắt cit đầu
Tính linh hoạt nảy ảnh hướng tích cực dễn việc cân bằng giữa cuộc sóng công việc
và năng suất của lao động trị thức
Một nghiên cứu cho thấy 42% lao động sẵn sảng từ bỏ trung bình 69 thư nhập của
min nêu họ có thể làm việc lừ xa
g kiểm soát dữ liệu
Theo một nghiên cửu, “739% lao dộng tri thức lámn việc với những người ở múi giờ và
địa điểm khác nhau ít nhất một tháng một k
Nếu doanh nghiệp không sử đụng điện toản đám mây, nhân viên phải gửi tải liệu qua bại thông qua thư điện tủ, có nghĩa là chỉ có 1 người có thể làm việc với ! tải liên vào
củng 1 thời điểm Ngoải ra, củng 1 đữ liệu sẽ có rất nhiều tên và định dạng khác nhau
Trang 24Điện toán dám mây lưu trữ tất cả các tải liệu ở một vị trí trung tâm, vả mọi người sẽ lám việc với 1 bản sao trung tâm Thậm chỉ, nhẫn viên có thể trỏ chuyện với nhau vả cúng
nhau thay đổi nội dung dữ liệu
b Bão mật
Tiảng năm có khoảng 800.000 máy tính xách tay bị mắt chỉ riêng ở sân bay Diễu này
có thể tiểm ẫn những nguy cơ tải chỉnh nghiém trọng Nhưng khi mọi thử được lưu trữ ở
điện toán đảm mây, dữ liện vẫn có thế được truy cập bất kế có chuyện gì xây ra với máy
tính
š_ Tỉnh cạnh tranh
Điện toán đám mây giúp cáo đoanh nghiệp vừa và nhỏ tiếp cận cắp công nghệ nhóm đoanh ngiệp Nó cũng cho phép những doanh nghiệp nhô hơn hành động nhanh hơn doanh nghiệp lớn, cạnh tranh với các doanh nghiệp khác
"Một nghiên cửu về khắc phục sau sự cổ đưa ra kết luận cuối củng rằng đoanh nghiệp
không sử đựng điện toán đám mày phải tin cậy vào cáo phương pháp sao lưu băng từ và các phương thúc phúc tạp kháo để khôi phục những thứ mà người sử đựng điện toán đám
mây không cân sử đụng vi nó gây nên sự chậm trễ vả khó khăn
4 Thân thiện với môi tường
Doanh nghiệp sử dụng điện toán đám mây chỉ sử đụng không gian máy chủ minh cần,
từ đó làm giãm “đấu chan carbon” Sit dung điện toán đám mây dẫn đến giảm íL nhất 30% năng lượng tiêu hao và chất thải carbon so với máy chủ riêng Một lần nữa,
doanh nghiệp vừa và nhỗ lại có tu thế: đoanh nghiệp nhồ có [hể giảm 909á răng lượng sử
dung va chải thải carbon so với các doanh nghiệ lớn
1.3.6 Dịch vụ đám mây lưu trữ
œ Mô hình dich vụ dâm mây lưu trit
Mệt hệ thông lưu trữ đám mày dược dảnh giá là chuyên nghiệp phải có những phương
an mỡ rộng hoạt động, có những phương thức giúp người dùng truy cập dữ liệu ở khắp nơi và bộ công cụ phẩn mềm linh hoạt trong cảc môi trường,
Thường có 3 loại mô hình đám mây lưa trữ là
Trang 25On premise/internal Off premise/Third party
Hinh CLIII.6.a— 1M6 hinh dich vụ đảm mây lưn trữ
Dam may công cộng (Public Cloud): Các ứng dụng, lưu trữ và các tài nguyên khác
của đám mây công cộng được cung cập bởi một nhà cung cấp dịch vụ có sẵn Những dich
vụ nảy miễn phí hoặc trả phí theo mức độ sử dụng (pay - per - use) Nói chung, dữ liệu
của người dùng trong đám mây công cộng sẽ được lưu trên đám mây và được ủy quyên
cho nhà cung cấp dịch vụ quản lý
Đám mây riéng (Private Cloud): la co sé ha ting dién toan dam mây chỉ hoạt động
cho một tổ chức duy nhất, cho dù được quân lý, lưu trữ nội bộ (mternal) hay bởi một bên
thir ba (external), Với đảm mây riêng, người dùng sẽ được bao dam về đô an toàn đữ liệu
cao hơn, nó phủ hợp với những người dùng có dữ liệu nhạy cảm va doi hỏi tính riêng tư
cao
Đám mây lai (Hybrid Cloud): là một thành phần của hai hoặc nhiều đám mây (đám
mây riêng và đám mây công cộng) vân giữ nguyên các thực thể duy nhất nhưng liên kết
chủng với nhau, cung cấp các lợi ich của nhiều mô hình triển khai Bằng cách sử dụng
kiến trúc “đám mây lai”, các công ty và cá nhân có thẻ xử lý các lôi, kết hợp với khả năng,
sử dụng tại chỗ ngay lập tức mà không cần phụ thuộc vào kết nói internet
b Một số dịch vụ đám mây lưu trữ hiện nay
ONEDRIVE
Dung lượng lưu trữ miễn phí: 15 GB
Trang 26De Microsoft phát triển, có thể nói rằng OneDrive cũng có chút "ho hang" với nên
tảng Windows 8 vàWindows Phone Hiện nay, dich vụ lưu trữ OneDrive đã được tích hợp bên trong mỗi tài khoảng Hotmail, Outlook (dich vu hép Mail ctia Microsoft) ngay tir khi
người dùng khởi tạo
Hình CLIH.6.b— I1 ONEDRILE
OneDrive được tích hợp trên hàu hết các thiết bị chạy Windows va WindowsPhone OneDrive cũng có môi liên hệ "thân thiết" với Mierosoft Office Theo đó, OneDrive
được tích hợp một số tác vụ hữu dụng như Word Online, Excel Online hay PowerPoint
Online Những tuỳ chọn nảy hỗ trợ người dủng tạo, tuỳ chỉnh, soạn thảo nội dung với
giao diện và tính năng gân giỏng với Word, Excel và PowerPoit cơ bản Ngay cả những
tập tin, văn bản được soạn thảo ban đầu trên PC rồi sau đỏ được tải lên OneDrive cũng cỏ thể để dàng chỉnh sửa nhanh Bạn có thẻ dễ dàng truy cập vảo kho đữ liệu OneDrive qua bat kỳ máy tính hoặc thiết bị di động nào có kết nổi với internet Ngoải ra, Microsoft cũng
đã phát hành phân mềm OneDrive trên khá nhiều hệ điều hành đành cho di déng
như Android, iOS hay WindowsPhone
s DROPBOX
Dung lượng miễn phi: 2 GB
Trang 27Hinh CLII.6.b — 2 Dropbox
Giao diện đơn giản bên trong một tải khoảng Dropbox, sự đơn giản trong phong cách
thiết kế của trang web và ngay cã giao điện phần mềm Dropbox đều được đánh giá là rất
true quan, dé sit dung, Dropbox hé tro thao tae "kéo" va "tha" rat đơn giản
Co the thay, Dropbox phủ hợp với rất nhiều đôi tượng người dùng vốn thích sự đơn
giản, giảm bớt thao tác khi sử dụng
* GOOGLE DRIVE
Dung lượng miễn phí: 15 GB
Google Drive được người dùng và các chuyên gia về công nghệ nhìn nhận như là một
kho lưu trữ trực tuyến toàn diện nhất hiện nay
Google Drive co mặt trên vỏ số thiết bị công nghệ, nhất là mảng thiết bị di động miền
có sử dụng những dịch vụ liên quan đến Google điền hình là Android và Gmail
Trang 28Google Drive
Keep everything Share anything
Hinh CLII.6.b—3 Google Drive
Google Drive ngoài chức năng lưu trữ còn hỗ trợ khá nhiêu tính năng mở rộng khả tiện lợi cho người dùng
Google Drive còn có thể hỗ trợ truy cập và chỉnh sửa các tài liêu như Word, Excel và
PowerPoint Ung dung Google Drive cing đang có mặt trên 2 hệ điều hành phố biên nhất
hién nay là Android và 1OS
+ BOX
Dung lượng miễn phí: 10 GB
Box nhằm đến đổi tượng người ding thuộc phân khúc doanh nhân riêng biệt Dịch vụ Box có cơ chế bảo mật cao, hỗ trợ can thiệp và tuỷ chỉnh sâu vào cách thức trao đổi thông,
tin của chủ sở hữu tải khoản đối với các cá nhân khác.
Trang 29Giao diện của Box đơn giản nhưng chuyên nghiệp, phong cách thiết kế hướng đến
người đủng doanh nhân
Box cho người đúng nhiều tuy chỉnh điển hình như quyền quyết định đổi tương nảo
được xem, tải về để sử dụng hay chỉnh sửa đổi với từng nội dung, riêng được chọn Người
dùng con cé thé dat mật khẩu cho từng tập tin, thiết lập giới hạn vẻ thời gian chia sẻ cho
từng thư mục
Ngoài ra, Box hỗ trợ một số tính năng cơ bản tương tự như Microsoft Office va Adobe
Lightroom rất tiện lợi cho việc chỉnh sửa nhanh ngay trên Box.
Trang 30CHUONG 2 XAY DUNG HE THONG LUU TRU DAM MAY VOT
HADOOP
2.1 Phát biểu bài toán và lựa chọn giải pháp
211 Phát biểu bài toán
Đổ giải quyết nhù cầu sử dụng hệ thống lưu trử dám mây dễ xây dựng một hệ thống thư viện linh động, dễ sử dụng phục vụ cho nhu cầu
2.12
Tam trữ thông tin cá nhân, lỗ chức
Đầm bảo quyển riêng tư và bão mật thông tin trên hệ thông thư viên dâm bảo Irảnh
việc lộ thông tấn hay đọc uộm dữ liệu
Nhụ cầu lưu lzữ công văn, giấy tỏ, tải liệu số hỏa, giáo trình, luận vẫn, nghiên cứu
khoa học
Lựa chọn giải pháp công nghệ
Dổ kho dữ liệu theo mô hình lưu trù đám mây có thể đáp ứng mục tiêu đễ sử dụng
rộng rãi, lưu trữ lượng đữ liêu lớn trang thời gian lâu đài, tiết kiêm kinh phí và khả nắng
chịu lỗi tôi đề xuất việc sử đựng Tĩadoop — IIDIFS cho việc xây dựng hệ thống máy
chủ để triển khai Lưu trữ đám mây, với các lợi điểm:
Tiết kiệm kinh phí bản quyên khi được triển khai trên hệ diéu hanh Linux nh
Ubuntu, CentOS
Hadoop HDES lả một mã nguồn mở uy tín trên thế giới, đã được sự ủng hộ cũng
như sử dụng của Yahoo, Google, IBM
“Tiết kiệm chi phi ha tang phẩn cứng, vi:
œ Khả năng chịu lỗi trên cụm máy chủ khi phát sinh các vẫn dé về hệ điều hành, lỗi phản cứng
© 1ladoop IIDWS có thể triển khai trên một cụm các máy có câu hình thấp,c
có thê tận dụng các máy để bàn cũ đã qua sử dụng, điều nảy đáp ửng véu cầu và hiện trạng thục tế tại nhiều địa phương, co quan, trường học ở
Trước ta hiện nay
e_ Khả năng mở rộng lén: Khả năng mỗ rộng lên tới hơn 4000 máy, Như vậy,
thay vì triển khai các máy chủ với giá thành cao, ta có thể triển khai tận
30
Trang 31đụng hàng trăm tới hàng nghĩn các máy có cầu hình tháp (thậm chí là cụm
các máy bản đã qua sử dụng )
¬ _ Đập ứng lượng truy cập lớn: phân tài truy cập dữ liệu lên các máy trong cluster
‘rong chương nảy tôi sẽ di vao giới thiệu tổng quan về Iladoop Iistributed Hile System và việc triển khai 11DES xây dựng kho lưu trữ dữ liệu
2.2 Big Data
2.2.1 Big Data la gi?
Big Data lén về số lượng, được xử lý với tốc độ nhanh, có cầu trúc hoặc không có cầu trúc, hoặc lá bao gồm các yêu tổ ở trên Những yêu tổ này làm cho Big Data khó xử lý,
khai phá và quản lý nếu đùng các phương thức truyền thông,
'Tinh đến năm 2012, các hệ thông được coi lả iớn nằm trong phạm vi 100 Petabyte
au trite Cac co
Dữ liệu lớn có thế vừa là đữ liệu có cầu trúc, vừa là đữ liệu không có
sở đứt liệu quan hệ truyền thống, như Informix và DB2, cung cấp các giải pháp đã được kiểm chứng với dữ liệu cỏ câu trúc Thông qua khả năng mở rồng, các cơ sở đữ liệu này cũng quân lý cả đữ liệu không có câu trắc Công nghệ Hadoop mang đến những kỹ thuật lập trình mới vả dễ sử dụng hơn đẻ làm việc với các kho dữ liệu lớn có cá dữ liệu có cấu trúc lần dữ liệu khỏng có cấu trúc
2.2.2 Hadoop là gi?
Apache Hadoop là một framework ding để chạy các ứng dụng wén 1 cluster lon được
xây dụng trên những phần cứng thông thường Hadoop hiện thục mô hình Map/Reduee, đây là mô hình ma ứng dụng số được chía nhỏ re thành nhiều phân đoạn khác nhau, và
các phân này sẽ dược chạy song song trén nhiéu node khac nhau
a Gidi thigu so lege Apache Hadoop
Apache Hadoop được Doug Cutting, người viết badoop, đặt tên theo tên con voi dé
chơi của con ông fa, dễ nhận dược sự ng hộ và ủng dụng của Yahoo, Google, LBM
Lladoop cé thé chay các ứng dụng với lượng dữ liệu lớn một cách nhanh chóng, chính xác, hiệu quá cao bằng cảch lưu vả tính toàn dữ liệu trên nhiễu node một cách độc lập llađocp có 2 thành phân chủ yếu là IIDTS (Iladoop Distibuted File System) va MapReduce
31
Trang 32Nhin tir bén ngồi, fles lưu trên HDEFS giống như lưu trong Windows hay Linux Ta
cĩ thể thêm mới, đổi tên, di chuyển, xĩa Dữ liệu được chia ra thành các blocks lưu trữ
trên rất nhiều DataNode, mỗi block cĩ nhiều bản sao (mặc định là 3) lưu trên nhiều
DataNode khác nhau, để nhằm mục đích đự phỏng khi một DataKode nào đĩ oĩ sự cá thì
an hoạt động bình thường Ngồi ra cờn cĩ 1(và chỉ 1) NameNode lam nhiệm
hệ thơng
vụ quân l¡ đứ liện và điều tiết các lệnh yêu câu thao tác đứ liệu
MapReduoe giúp cho việc xứ li sơng song được thuận lợi, gỏm 3 bộ phận: hàm Map
để phân tích đata thành các cặp: key, value, ham Reduce căn cử vào các key để gom tập
hop các cặp như vậy lại với nhau và đưa ra kết quả xử lý; hàm Main đề điều tiết Mỗi một thao tác Map hoặc Reduce dugc goi la TaskTracker Théng thường TaskTrackers duoc chạy trên DalaNodes để giảm đường truyền Tasktrackers được IobTracker căn cứ vào
thơng tin cửa các blocks để khởi tạo trên DataNode phù hợp IolzTracker khơng nhật tiếL
chạy lrên cùng máy với NameNộc
Hadoop đang ngày càng được ứng đụng và phát triển rộng rãi tại nhiễu nước, tuy
nhiên chưa cỏ nhiều ở Việt Nam hiện nay
» Dink nghĩa về Hadòp
Đưới đây là một vài định nghĩa của TBM về Hađoop, mỗi định nghĩa nhắm vào một nhĩm đối tượng khác nhau trong doanh nghiệp:
-_ Đi với các giám đốc điền hành: Hadoop là một đự án phân mềm nguồn mở của
Apache để thu được giá trị từ khối lượng/ Lộc đội lính đa đang đáng kinh ngạc của
dữ liệu về tổ chúc của bạn 1lãy sử dụng dữ liệu thay vì vứt bd hau hết đữ liệu đĩ
di
-_ Đấi với các giảm dốc kỹ thuậ
pha Big Data cĩ cầu trúc và khơng cĩ cầu trúc về cơng, ty của bạn Nở tích hợp với
hệ sinh thái Business Intelligenoe của bạn
-_ Đơi với nhân viên nháp lý: Hadoop là một bộ phân u
nguồn mở được nhiều nhà cung cấp dong gĩi và hỗ trợ Hãy xen phần Tài nguyên về việc trả tiên sở hữu
trí tuệ (1P)
-_ Đãi với các kỹ sư: Iladoop là một mơi trường song song thục thi map-reduce dua
trên Java, khơng chúa sẽ gì cà Hãy nghĩ đến làng trăm, hàng ngần mấy tính đang
Jam việc dễ giải quyết cùng một vẫn đề, cĩ khả năng khơi phục lỗi dựng sẵn Các
diy én trong hé sinh thải Hadop cung cấp khá năng load (tái) dữ liệu, hỗ trợ ngơn ngữ cấp cao, Iriển khai trên đấm mây tự động và các khả năng khác
32
Trang 33- Déi với chuyên gia bảo mật: Hadoop là một bộ phân mềm bảo mật-Kerberos
2.2.3 Thanh phan của Hadoop
Dự án Hadoop của Apache có hai thánh phần cốt lõi, kho lưu trữ tệp gọi là Hadoop
Distributed File System (HDES _ Hệ thống tập phân tân Hadoop) và khung công tác lập
trình gọi là MapReduce Có một số dự án hé tro dé sit dung LIDI‘S va MapReduce
+ FDFS: Néu bạn muốn có hơn 4000 máy tỉnh làm việc với dữ liệu của bạn, thì tốt hơn bạn nên phổ biến đữ liệu của bạn trên hơn 4000 máy tỉnh đó TDTS thực hiện điều này cho bạn HDES có một vải bộ phận dịch chuyển Các Dalanode (Nút đữ
liệu) lưu trữ đữ liệu của bạn và Namenode (Nút tên) theo đối nơi lưu trữ các thứ
- MapReduce: Day la mẽ bình lập trinh cho Lladoop Có hai giai đoạn, Map và Reduce JobTracker (Trinh thee déi công việc) quản lý hơn 4000 thành phần công vide MapReduce
- Hadoop Streaming: Mét tign ich để tạo nên mã MapReduce bằng bất kỳ ngôn ngữ nảo: C, Perl, Python, C+-, Bash, v.v Cac vi du bao gdm mét trinh mapper
Python va mét trình reducer AWK
- Hive va Hue: Ta cd thé viel SQL va yêu câu Hive chuyển đổi nó thành mội tác vụ
MapReduce Ta cd 4000 ghi chép va kha ning mé roug, quy mé ra nhiéu Petabyte
Tue cung cAp mệt giao điện đồ họa dựa trên trinh duyệt để làm céng viéc Ilive
- Pig: Mét méi trường lập trinh mức cao hơn dé viét ma MapReduce Ngôn ngữ Pig
dược gọi là Pig Latin Ta có thể thấy các quy ước đặt lên hơi khác thường ruột
chút, nhưng Pig có tý số giá-hiệu năng đáng kinh ngạc vả tính sẵn sảng cao
-_ Sqoap: Cung cấp việc truyền đữ liệu hai chiêu giữa [ladoop va cơ sở đữ liện quan
liệu quan hệ, mặc đủ có tên là IIBase
- FlumeNG: Trinh nạp thời gian thực để tạo luông dữ liệu của người dùng vào
Hadaop Nỏ lưu trữ dữ liệu trong HDES và HBssc
- Whirm: Cung cấp Đảm mây cho Hadoop Ta có thể khói động một hệ thống chỉ trong vài phút với một tệp câu hình rất ngắn
-_ Mahout Máy bọc đành cho Hadoop Được sử dụng cho các phân tích dự báo và phân tích nâng cao khác
33
Trang 34- Fuse: Lam cho hệ thống HDFS trông như một hệ thông tệp thông thường, do đó ta
có thẻ sử dụng lênh ls, cd, rm và những lệnh khác với dữ liệu HDFS,
- Zookeeper: Được sử dụng dé quan ly đồng bộ cho hệ thông Bạn sẽ không phải
lâm việc nhiều với Zookeeper, nhưng nó sẽ làm việc rất nhiều cho bạn
Shuffle/sort mapper output
Mapper - read 64+ MB bloc<s
ssilsss-sss
Hinh CILILS— 1 Thanh phan ctia Hadoop
HDES, tâng dưới củng, nằm trên một cum phân cứng thông thường Các máy chủ lắp
vào tủ khung (rack-mounted) đơn giản, mỗi máy chủ có các CPU lõi 2-Hex, 6 đến 12 đĩa
va 32 Gb ram Đổi với một công việc map-reduce, tảng trình ánh xạ đọc từ các đĩa ở tốc
độ rất cao Trình ảnh xạ phát ra các cặp khóa giá trị được sắp xếp và được đưa tới trình
rút gọn vả tâng trình rút gọn tỏm lược các cặp key-value
2.2.4 Lợi ích từ công nghệ Big Datacủa Hadoop
~_ Mang tỉnh toán và lưu trữ lại cùng với nhau trên phân cửng thông dụng: Cho ket
quả tốc độ nhanh với chi phí thập
-_ Tỷ số giá hiệu năng: Công nghệ Big Data của Hadoop đưa ra mức tiết kiêm chi phi đáng kế (một hệ số nhân xáp xỉ 10) với những cải thiện hiệu năng đáng kẻ (một lân nữa, hệ số nhân lả 10)
-_ Khả năng mở rộng quy mô tuyến tính: Hadoop có khả năng mở rộng quy mô kế từ
khi phát hành bản mới nhất có khả năng mở rông giới hạn số lượng các nút vượt
qua 4,000
- Truy cập đây đủ đến dữ liệu không có cầu trúc: Một kho đữ liệu có thể mở rộng
quy mô cao với một mô hình lập trình song song thích hợp, MapReduce, đã là một thách thức cho ngành công nghiệp từ lâu nay Mô hình lập trình của Hadoop
34
Trang 35không giải quyết tắt cả vận để, nhưng nó là một giải pháp mạnh cho nhiều nhiệm
vụ
2.3 Hadoop Distributed File System (HDFS)
Hadoop cung cấp một hệ théng tap tin phan tin HD¥S (Hadoop Distributed File System) dé tao ra một nên tảng lưu trữ dữ liệu đáp ứng cho một khối lượng dữ liệu lớn và
chỉ phí rẻ
2.3.1 Giới thiệu
HDES kề thừa các mục tiêu chưng của các hệ thông lilc phản tán trước đỏ như dé tin
trữ dữ liệu của Nutch, một dự án Search Engine mã nguồn mở, vả phát triển dễ dáp ứng
các đòi hỏi về lưu trữ cũng như xử lý của các hệ thống xử lý dữ liệu lớn với các đặc thủ
riêng, Do đó, cỏ nhiều sự khác biệt trong mục tiêu của HIOES sơ với các hệ thống file
phân tán truyền thông, như
-_ Các lỗi về phản cửng sẽ thường xuyên xây ra Hệ thống HDFS sẽ chạy trên các
cluster voi hang trim hoặc thậm chi hang nghin node Cac node nay được xây
đựng, nên từ các phan cứng thông thường, giá rẻ, tỷ lệ lỗi cao Chất lượng và số
lượng của các thành phẩn phân cứng như vậy tắt yếu dân dến t lệ xảy ra lỗi trên cluster sẽ cao Các vẫn để có thể điểm qua như: lỗi của ứng dụng, lỗi của hệ điều
hành, lãi đĩa cứng, bộ nhó, lỗi của các thiết bị kết nối, lỗi mạng, và lỗi về nguồn
điện Vì thế, khả năng phát hiện lỗi, chống chu lỗi và tự dộng phục hỏi phải được tich hop vao trong hé théng HDF
-_ Kích thước file lớn hơn so với các chuẩn truyền thống, các file có kích thước hàng
GB sẽ trở nên phổ biến Khi làm việc trên các tập dữ hệu với kích thước nhiều TP,
Ít khi nào người ta lại chọn việc quân lý bàng tỷ file có kích thước hàng KE, thậm
chỉ nêu hệ thông có thể hỗ trợ Việc phân chia tập đữ liệu thành một số lượng it
file có kích thước lớn sẽ
ói ưu hơn, nỗ giúp giã thời gian truy xuất đữ liệu và
đơn giản hoá việc quân lý các tập tin
~ Hau hết các file đều dược thay dỗi bằng cách appcnd dữ liệu vào cuối file hơn là
ghi đè lên đũ liệu hiện có Việc ghỉ đữ liệu lên một vị trí ngẫu nhiên trong file
tổn tại Một khi đã được tao Ta,
only), va thuong duge dec mét each tuan ty Co rat nhiều loại dữ liệu phủ hợp với các dic diém trén: cdc kho dit ligu lon dé cdc chuong trinh xi ly quét qua va phân
tích đữ liêu hay là các đòng đữ liêu được tạo ra một cách liên tục qua quá trình
chạy các ửng dụng (vi dụ như các file lop) Đó có thể lá kết quá trung gian của
trở thành file chỉ đọc (read-
35
Trang 36một mảy nảy và lại được dùng làm đầu vảo xử lý trên một máy khác Do đó, việc
append dữ liệu vào file sẽ trở thánh điểm chính đề tối tu hoả hiệu suất
Các block của cùng một file (trừ block cuối củng) sẽ có củng kích thước vả kích
thước nảy được gọi là block size của file đỏ
Mỗi block của file sẽ được lưu trữ thành ra nhiều bản sao (repliea) khác nhau vì mục địch an toán dữ liệu (xem mô hình phía dưới)
mee cacthing csp vena igy PSK DA
> Cae thong diép truyền yêu cầu
Hinh CILMI.2 — 1 Kién tric HDFS
Trang 37HDES cỏ một kiến trac master/slave, trén mét cluster chay HDFS, cé hai loai node ta
Namenode va Datanode Mét cluster co duy nhất một Namenode và cỏ một bay nhiều
phân cấp các file, thư mục của hệ thống file va
thể, các Metadata mà Namenode lưu trữ gồm cỏ:
- File System Namespace: là hình ảnh cây thư mục của hệ thống ñlc tại ruột thời
điểm nào đó Lile Svstem naraespace thể hiện tất các cáo Ble, thư mục có trên hệ
théng (ile va quan hệ giữa chúng
- Théng tin dé anh xa tir tén file ra thanh dank sach vac block: yor moi file
một danh sách cỏ thử tự các block của file dỏ, mỗi bleck dược đại diện bởi Block
ID
- Noi lua trit cdc block: Vai mdi block sẽ có một đanh sách các DataNode lim trữ
các bản sao cửa block dé
ó
2.3.3 Quá trình đọc file trên IDFS
Sơ để sau miêu tả rõ qua trình client đọc một file trên HDFS
37
Trang 381; Gửi yêu cầu đọc
`2: Danh sách cde block id va not lưu trữ
Hình CH.HI.3— 1 Quả trình đọc file trên HDFS
- Dau tién, client sé md file can doc bing cách gửi yêu câu đọc file đến NameNode
(1).8au đó NameNode sẽ thực hiện một số kiêm tra xem file được yêu cầu đọc có
tổn tại không, hoặc file cần đọc có đang ở trạng thái “khoẻ mạnh” hay không, Nếu mọi thứ đều ồn, NameNode sẽ gửi danh sách các block (đại điện bởi Block ID)
của file cùng với địa chỉ các DataNode chứa các bản sao của block nay
~_ Tiếp theo, client sẽ mở các kết nói tới Datanode, thực hiện một RPC dé yéu cau
của bloek từ DataNode “gân” nhất
- Client sé thuc hiện việc đọc các block lặp di lap lai cho đến khi block cudi củng
của file được đọc xong Quá trình client đọc dữ liêu từ HDES sẽ transparent với
của Hadoop để tương tác với HDFS, các API này che giâu đi quá trình liên lạc với
NameNode vả kết nói các DataNode đề nhận dữ liệu
Trong quả trình một client đọc một file trên HDES, ta thấy client sẽ trực tiếp kết nói
với các Datanode dé lấy dữ liệu chứ không cần thực hiện giản tiếp qua NameNode
(master của hệ thông) Điều nảy sẽ làm giảm đi rất nhiều việc trao đối dữ liệu giữa client
38
Trang 39NameNode, khối lượng luân chuyên đữ liệu sẽ được trải đều ra khắp cluster, tình trạng bottle neck sẽ không xảy ra Do đó, cluster chạy HDES có thể đáp ứng đồng thời nhiều
client cing thao tac tại một thời điểm
2.3.4 Ghi file trên HDFS
‘So d6 sau mô tả quá trình tương tác giữa client lên hệ thông HDFS
-GÓjêulp> nie
Hình CH.HI.4— 1 Quả trình ghi file trên HDFS
~_ Đâu tiên, client sẽ gửi yêu cầu đến NameNode tạo một file entry lén File System
Namespace (1) File mới được tạo sẽ rông, tức chưa có một block nao Sau do,
NameNode sẽ quyết định danh sách các DataNode sẽ chứa các bản sao của file cân
gì và gửi lai cho client (2)
- Tiép theo, client sé chia file can gi ra thanh cac block, va voi méi block client sé
đồng gói thành một packet
- Client giti packet cho DataNode thir nhật, DataNode thử nhất sau khi nhận được
packet sẽ tiến hành lưu lại bản sao thử nhất của bloek Tiếp theo DataNode thứ
nhất sẽ gửi packet này cho DataNode thứ hai đê lưu ra bản sao thứ hai của block
Tương tự DataNode thứ hai sẽ gửi packet cho DataNode thứ ba Cử như vậy, các
DataNode cũng lưu các bản sao của một block sẽ hình thành một ông dân dữ liệu
data pipe
39