1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn xây dựng kho dữ liệu an toàn với mã huffman

78 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Kho Dữ Liệu An Toàn Với Mã Huffman
Tác giả Mai Văn Hà
Người hướng dẫn PGS. TS Vương Đạo Vy
Trường học Đại học quốc gia Hà Nội
Chuyên ngành Kỹ thuật phần mềm
Thể loại Luận văn Thạc Sỹ
Năm xuất bản 2015
Thành phố Hà Nội
Định dạng
Số trang 78
Dung lượng 1,99 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhưng hiện nay, với sự phát triển của Công nghệ thông tin, nhu cầu sứ dụng tài nguyên và lưu trử dữ liệu của cơn người ngảy càng nhiều và những con số đỏ đã trở nên hết sức nhỏ bẻ Dung l

Trang 3

Lời cảm ơn

Lai đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS.TS

Vương Đạo Vy và TS Lẻ Phê Đô, người thấy đã chỉ bảo và hướng dẫn lận trữ: cho tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này

Tôi xin chân thành gửi lời cảm ơn tới gia đỉnh, người thân và bạn bè - những

người luôn ở bên tôi những lúc khó khăn nhật, hiôn động viên tôi, khuyến khích tôi trong cuộc sống vả trong công việc

'Tôi xin chân thánh cảm ơn!

Tác giả Mai Văn Hà

Trang 4

Lời cam đoan

“Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hop va phát triển các nghiên cứu tom tắt da văn bản trong nước và trên thể giới do tôi thực hiện

Tuân văn nảy là rdới, các để xuất trong luận văn đo chính lôi thực hiển, qua quá trình nghiên cứu đưa ra và không sao chép nguyễn ban tir bat ki một nguồn tài liệu nào

khác.

Trang 5

MỤC LỤC

1.1 Sự cần thiết của kho lưu trữ dữ liệu 15

1.3.3.0 MG bin Kin 10 ae cece ssscssseressssneseseessssnseeeensieeasetssaesissee 18

c._ Điều khiển SLA(Bervice level agreement) ceases 2

b Khắc phục sự GỒ nọ 02c ren 22

c Phản mềm tự dộng cập nhật 22

Trang 6

đ Miễn giảm chỉ phí đầu tư

e._ Lãng cưởng làm việc nhỏm

f Tam việc ở1uợi nơi

g Kiểm soát đữ liệu

b Một số địch vụ đám mây hư trữ hiện nay

CUUONG 2 XÂY DỰNG UE THỐNG LƯU ERỮ DÁM MÂY VỚI HADOOE

2.1 Phát biểu bài toán và lụa chọn giải pháp cà cekiserieiorre

3.1.1 Phát biếu bài toán

3.1.3, Lựa chọn giái pháp công nghệ

2.2 Địg Data HH HH hư HH ae, 22.1 Bịp Data là gì?

2.2.2, Hadoop là gÌ? ch HH HH HH game

a Giới thiệu sơ lược Apache Hadoop

b Pinh nghia vé Hadoop

Trang 7

2.3.4 Ghi file trên HDFS

2.4 "Triển khai cài đặt hệ thông lưu trữ đám mây với HIDES s 5225

CHƯƠNG 3 TONG QUAN VE MA HOA Diff LIRU

3.1 Sự cần thiết của mã hóa đữ liệu

3.2 Mã hỏa dữ liệu se neiirre

3.2.1 Khải niệm vẻ mã hóa thông lu

3.2.2 Thân loại các thuật toán mã hóa

3.3.1 Hệ mã hóa Caesar

3.3.2 Liệ mã hỏa Vigenere c ninh

4.1 Sự cần thiết của nén đít liệu

4.2 Nên dữ liệu cọ nHHHHnHH HH HH HH He gam rderoree 4.2.1 Định nghĩa nón đữ liệu

4.3 Quả trình nên và giải nén

4.3 Giải thuật mã hỏa LhufRman

4.3.1 Mã hóa dũ liệu trong nảy tỉnh ¬ nee

Trang 8

43.2 Mã phi Hiến tá - - - SỬ

4.3.3 Lý thuyết Mã Hufôman ¬ ,

b Thuật toán xây đựng cây mã Huffman SƠ

CHƯƠNG 5 GIGI THIBU BAI TOAN MA HOa VAN BAN TIENG VIBT .63

5.2 Để xuất giải pháp cho mã hóa và nón văn bên tiếng Việt 63 5.2.1 Mã hóa văn bản tiếng Việt với phương pháp mmã hóa Vigenere 63

5.2.2, Nền văn bản tiếng Việt với phương pháp mã hóa Huffman

5.2.3 Tập văn bản mẫu cho việc mã hỏa và nén văn bản Tiếng Việt 64

lệ xuất hiện của các từ 66

b Các bước để giải mã văn bản nnrrevvtrenttrrrrtrrerrree 69

6 GBI ẽốốẽẽ.ẽ

5.6.1 Yêu câu bài toán Lạ HH HH HH HH HH HH HH ruêt 70

5.6.3 Kết quả thực hiện óc neo TT

Trang 9

a Nén dit ligu - - - 72

3.6.4 Giới thiệu chương trình nén và giải nên văn bân tiếng Việt TA

b Neén văn băn tiếng Việt,

TÀI LIỆU THAM KHẢO

Trang 10

MỞ BÁU

động như dia mém (floopy disk) véi dung lượng khá khiêm tổn 4MB và USB thời điểm

cao nhật lúc bây giờ là 12SA4I3, Việc sở hữu một ö cứng với dung lượng 40GB đã lả đủ

lên thậm chỉ là dư thừa cho nhu câu sử dựng của cả nhân

Nhưng hiện nay, với sự phát triển của Công nghệ thông tin, nhu cầu sứ dụng tài

nguyên và lưu trử dữ liệu của cơn người ngảy càng nhiều và những con số đỏ đã trở nên hết sức nhỏ bẻ Dung lượng đữ liệu gia tăng không ngừng, yêu câu ngảy cảng cao vẻ hiệu năng truy xuất, tính Ổn định và sự sẵn sảng của đữ liệu; việc lưu trữ đã và đang trở nên rất

công ty lớn như Microsoft, Apple, Google, Dropbox, Mediafire, Rapidshare dang

cung cấp các dịch vụ lưu trữ và chia sẻ dữ liệu trên nên điện toan dam may

Tuy dap ứng được yêu cầu về việc lưu trữ, chía sẽ dữ Hiệu cũng như đụng lượng lớn nhưng việc lưu trữ qua các dâm mây cũng có những nhược diễm vẻ vẫn dễ an ninh đữ liệu trước sự tân công của tin tắc, tỉnh pháp lý liên quan đến các dữ liệu được lưu trữ trên

mang

Mục tiên của luận văn này nhằm nghiên cứu giãi pháp xây đựng kho lưu trữ dữ liệu

hiệu quả và an toàn, bảo mật đứ hệu người dùng dựa trên việc xây đựng các thuật toàn

mã hỏa phục vụ cho việc má hóa văn bản, nền và gidi tiền vần ban theo ngôn ngữ Tiếng ViệL

Thông qua việc phân tích từ (từ đơn, từ ghép) trong tiếng Việt và áp dụng vào cáo giải thuật mã hóa, qua đỏ nâng cao hiệu quã của việc mã hóa cũng như nén dữ liệu trong kho

lưu trữ an toản

10

Trang 11

Nhiệm vụ của luận văn là:

Phân tích cáo văn bản tiếng Việt mẫu, từ đỏ xây đụng các bộ thư viện mẫu cho

việc thiết lập bd ma Huffman

Thống kê tuân suất xuất hiện của các từ đơn, từ kép trong văn bản tiếng Việt,

Nghiên cứu mã Vigiener cho việc mã hóa vẫn bản tiếng Việt đựa trên kết quả của

việc phân tích Tiếng Việt

Nghiên cứu giải thuật HuÊfman cho nén và giải nén văn bản

Áp dịng bộ thứ viện mẫu từ tiếng Việt

Nghiên cứu mô hình kho lưu trữ dữ liệu

ê xây đụng bộ mã Hufinan

Pham vỉ nghiên cứu:

Nghiên cứu mã hóa văn bản tiếng Việt đựa trên mã Vigiener

Nghiên cứu nén các văn bân tiếng Việt dua trên thuật toán Huffman

Xây dựng kho lưu trữ dữ liệu với các văn bán Tiếng Việt đã được tiên và mã hóa,

đảm bảo tối wu đụng lượng lưu trữ cũng như đảm bảo tính riêng tư của nguời sử

dụng

Phương pháp nghiên cứu:

Nghiên cửu giái pháp xây dựng kho lưu trữ đản may

Nghiên cứu thuật toán mã hoa Ilufftnan che việc nén và giải nén các văn bản

Nghiên cứ thuật toán mã hỏa Vipiener,

Xây đựng một bộ thu viện dữ liệu cho việc phân tích văn bản tiếng Việt

Nghiên cứu và tia cơ chế phân tích các văn bản tiếng Việt thành các từ don, tir

ghép phục vụ cho việc nén dữ liệu

Sử đựng cáo công cụ lập trình để xây dựng phần mềm phue vụ cho việc nén và

giải nén các văn bản tiếng Việt

Nội dung Luận văn gầm các chương:

Chương 1 Téng quan về kho lưu rữ đữ

‹_ Sự cần thiết của kha lưu trữ

c Các khái niệm về Kho lưu trữ

co Tam tra fam may

Chương 2 Xây dựng hệ thống lưu trữ đám mây với Iadoop

c Hải toán

c Tìm hiểu về Big data

11

Trang 12

c_ Hadeop Distribufcd File System — LIDF'S

c_ Triển khai cài đặt hệ thống lưu trữ đám mây với IIDFS

Chương 3 Tổng quan về mã hứa dữ liệu

co Sw cin thiết của mã húa dữ liệu

Chương 4 Tổng quan về nén vả giải nén

c_ Sự cẩn thiết của nén đữ liệu

œ Nên dữ liệu

c_ Giải thuật mã hóa Hufman

Chương 5 Giới thiệu bài toán mã hóa văn bán tiếng Việt

©o Yêu cầu bài luân

©_ Xử lý văn bản tiếng Viét

o¿_ Xây dung bé ma Huffman

c Nén va ma hoa van bản tiếng Việt

Kết luận

Tài liệu tham khảo.

Trang 13

DANH MỤC HÏỈNH

Tinh CLIL2 - | Cau trúc của hệ thông kho lưu trữ -cctnrienceisrer 16

Hình CLUE3 1 M6 hình kiến trúc lưu ưữ dám mậy, ceceoesoe T8

11ình CL.HL.6.b — L ONHDRIV, à cà nneiiereirsreereeeroeroee ĐỘ Hình CL.HE6.b — 2 Dropbox Ătsnhnnnerererirerreeoeroee T7)

Hinh CILIV 3 Mô hình xây dựng phần mềm ClHent tương tác HDES 43

Hình CHI.H.2.c-L Mô hình mã bắt dỗi xửng, co eceeeeereeeecee 47

Hình GII.H.2.f-1 Mỏ hình mã hỏa khỏa bị mật soeoi co đĐ

Hình CTTLTL.3.g-1 Mã hóa thông điệp sử dụng khóa công khai SỐ 1lình CHLH.2.g-2 Giải mã thông điệp sử đụng khóa riêng - SỐ

Trang 14

Hình CIH.ILL Mã Caesar với độ địch là 3 - |

Hình vuông Vigenere hay bảng Vigenare, công cụ của phép mã hóa Vigenere 52

Hình CTV.IL2 - 2 Quá trình giải nén đữ liệu SỐ linh CIV.HL2.b 1 Xây dựng mãiiuffman bưởel SỞ

linh CIV.HL2.b 4 Xây dựng mãliuffman bướe4 OD Hình CHITL3 — 1 Độ giao giữa các Tập văn bản mẫu 65

Hình CIH.TT-I Mô hình liệt kê tỷ lệ xuất hiện của các từ trong Tiếng Việt 67

Tlinh CIILEV I Mô hình xây dựng bộ mã lluffiman

Tĩnh CIH.V.2 — Mô hình nén văn bản Tiếng Việt với mã hóa Vigenerc

14

Trang 15

CHƯƠNG 1 TONG QUAN VE KHO LUU TRU DU LIEU

1.1 Sự cần thiết của kho lưu trũ dữ liệu

Cùng với sự phát triển không ngừng và nhanh chẳng của khoa học công nghệ, đặc biệt

là công nghệ thông tin, trì thức của cơn người ngày cảng được nâng cao, vai trò và ÿ nghĩa của lưu lrữ tài liệa ngày cảng được coi lrọng và khẳng định

Với Internet không chỉ diễn ra sư giao tiếp, phỏ cập thông, tin mà còn hình thành nền một thị trường thang tin hang hỏa rộng lớn, nhiều tiêm năng Bên cạnh đó, do yêu cần của

quá trình hội nhập đang điển ra mạnh mẽ, việc công khai minh bạch các văn bản, chỉnh

sách của nha nước đến mọi đối Lượng trở thành vần để bất buộc Đặc tiệt vide nang chat

lượng thông lin phục vự tửm cầu nghiên cứu, quyết định dau lư, sân xuấi, kinh tế, vẫn hóa, xã hội, lịch sử, truyền thắng đang rất dược chủ trọng Một trong những nguồn

thông tin đặc biệt là thông tin từ tài Hệu lưu trữ

Mặt khác đưới góc độ quản lý nhà nước, việc bảo quân và sử đụng có hiện quả tải liệu

tưu trữ có ý nghĩa cực kỳ quan trọng đổi với kinh tế, xã hội, lịch sừ của môi quốc gia và

địa phương

Với các doanh nghiệp hoạt động kinh doanh, oác dữ liệu của doanh nghiệp phát sinh

ngày càng nhiều, ngoài những thông tin sản phẩm, dịch vụ thì các thông tin liên quan đến

sự tương tác với khách hàng như việc tham gia trò chuyện, yêu câu tư vân vả thực hiện

các so sánh vẻ giá cả, chật hượng Người ta muốn tận dung nguân đữ liệu nảy đề sử

dung cho những mục đích tổ trợ cho công việc kinh doanh ví đụ như cho mục đích thống,

kê hay phân tích

Vi vay, song song với chương trình cung cấp thông tín qua Internet và hệ thống thông

tin viễn thông khảo thi việc ímg đựng các công nghệ, kỹ thuật hiện đại vào bảo quản lâu

đài các tài liệu điện tử có giá trị (dẫn thay cho phương pháp bảo quản truyện thông) trã

thành nhiệm vụ cấp bách của công Tác lưu trữ

1.2 Kho lưu trữ

liêu lưu trữ bằng thiết bị điện tử của một tổ chức Các kho đữ liệu dược thiết kế dễ hỗ trợ

việc phân tích đữ liệu vá lập bản cáo.

Trang 16

Định nghĩa cô điển này về kho dữ liệu tập trung vào việc lưu trữ đữ liêu Tuy nhiên, các phương tiên cho việc lấy và phân tích, trích rút, biến đổi, nạp dữ liệu, và quản ly dit liệu từ điển cũng được coi là các thành phản cốt yêu của một hè thông kho dữ liệu

1.2.1 Khái niệm

Kho dữ liệu là một tập các dữ liêu có những đặc điểm sau: tập trung vảo một chủ đề, tổng hợp từ nhiều nguồn đữ liệu khác nhau, từ nhiễu thời gian, và không sửa đôi Được

dùng trong việc hồ trợ ra quyết đình trong công tác quản lý

1.2.2 Cấu trúc của một hệ thống kho dữ liệu

Tầng đáy: Là nơi cung cấp dịch vụ lây dữ liệu từ nhiều nguồn khác sau đó chuẩn hóa,

làm sạch và lưu trữ dữ liệu đã tập tung

Tầng giữa: cung cấp các dịch vụ đề thực hiện các thao tác với kho dữ liêu gọi la dich

vụ OLAP (OLAP server) Có thể cải đặt bằng Relational OLAP, Multidimensional OLAP

hay ket hop cả hai mô hình trên Hybrid OLAP

'Tầng trên cùng: nơi chứa các câu truy vẫn, bảo cảo, phân tích

16

Trang 17

1.3 Lưu trữ đám mây

Những năm gân đây, lưu uữ đảm ruây đã hở thành tuội trong các dịch vụ “đám mây”

phổ biến nhất Với công nghệ lưu trữ đâm mây người đúng không phải phụ thuộc vào các thiết bị lưu trữ vật lý như ó cứng, USB, DVD, CD vả có thể truy cập, tải lên, tải về, đồng bộ hoá đữ liệu ở bất kỹ nơi đầu và trên nhiêu loại thiết bị khác nhau như desktop, laptop, các thidt bj di déng

Với việc nghiên cứu công nghệ lưu trít đảm mây, luận văn này tập trang tìm hiểu và xây dụng thử nghiệm một ứng đựng lưu đứ liệu trên HDES vận hành trên mối trường Linux — CentOS và nến lãng JAVA để xây đựng một kho lưu trữ dữ liệu theo mô hình

đảm mây lưu trữ

1.3.1 Công nghệ lưu trũ dám mây

TIệ thống lưu trữ đám mây có dang kết nổi mạng theo mồ hình kết nổi mạng tới trưng, tâm đữ liệu, với các tiêu chuân và giao thúc kết nổi yêu cầu về bảo mật, để người dùng có

thế khai thác được địch vụ này

Người dùng gửi dữ liệu tởi trung tâm dữ liệu thông qua các kết nối mạng, trung tâm

đữ liệu sẽ lưu dữ liệu và ghỉ lại những thông tin cần thiết khác Khi người dùng muốn lây

thông tin, họ phải truy cập vào trung tâm đữ liệu thông qua các giao điện người dửng

(giao diện phản mềm, giao diện web ) Sau khi được chứng thục người dùng, trung

tâm đữ liệu sẽ thực hiện xác định người đừng được phép truy cập vào khu vực đám mây

lưu trữ nào với những quyền gì

Đổ đáp ứng cho một đảm mấy lưu trữ cân các thành phản phần cứng, phần mềm dáp

tp được nhu cầu tỉnh toán của một mô hình dam may hve tri

Một hệ thống đám mây lưu trữ được xây dung từ một lay nhiều máy chủ dữ liệu, số

lượng mấy chủ phụ thuộc vào mô hình đấm mây được sử dụng

Một hệ thông máy tính thường yêu câu cân được bảo trì và sửa chữa, vì thế phải có

cơ chế lưu trữ cùng một đữ liệu trên nhiều may tinh khac nhan

13.2 Các loại hình đảm mây lưu trữ

Một số mö hình dâm mày lưu trữ thông dụng hiện nay:

Trang 18

Đám mây lưu trữ tải liệu: lưu trữ tài liêu dùng đẻ đọc vả thao tác trên các tải liệu

nay, vi dy: Google Does

Đám mây lưu trữ hình ảnh: lưu trữ hinh ảnh dùng để xem vả thao tác trên đó, vi dụ: Flickr, Picasa

Đám mây lưu trữ e-mail: Lả loại lưu trữ đữ liệu thư

Đám mây lưu trữ phim: Lả loại cho phép người dùng tải các đoạn phím của mỉnh và

chia sẻ với người khác, ví dụ: Youtube

1.3.3 Mô hình kiến trúc

Kiên trúc của đám mây bao gồm

- Nén tang dam may (Cloud Platform)

- Cae dich vu dam may (Cloud Service)

- Coséha tang dam may (Cloud Infrastructure)

-_ Lưu trữ dam may (Cloud Storage)

Điện toán đám mây có thể coi như một tập hợp dịch vụ, tập hợp nay có thể được trình

bay như một kiến trúc phân tầng theo

Möhinh truyền thống Hạtắngtộptrung - Chuẩnhỏacängnghệ Chuẩnhỏanghiệp vụ

Hình CI.HI.3— 1 Mô hình kiên trúc lưu trữ đảm mây

- SaaS (Software as a Service — phần mềm như là dịch vụ): là tầng đỉnh của kiến

trúc SaaS cho phép người dùng chạy các ứng dụng từ xa của đám mây

18

Trang 19

- IaaS (Infrastructure as a Service ha tang cơ sở như là dịchvu): là tải nguyễn điện toán được cung cấp như là một địch vụ Dó là cáo máy tính được áo hóa với năng lực xử lý được đảm bão và băng thông dự trữ đñ để lưa trữ và truy nhập

Tricrnel

- PaaS (Platform as a Service nên tổng như là dịch vụ) tương tự laaS, ngoài ra cón

có các hệ điều hành và dịch vụ cần thiết cho một ứng dụng cụ thể Nói cách khác, PaaS là laaS công thêm một số phần mềm riêng dành cho một ứng dụng cho trước

+ dSaaS (data Storage as e Serviec — lưu trữ dữ liệu như là địch vụ) cung cấp không,

gian lưu trừ mà khách hàng có thể sử dụng, bao gôm cá bãng, thông lưu trữ

a SaeS

Các ứng đụng nghiệp vụ được tô chức bởi các nhà cùng cấp và chuyển giao như mội địch vụ Saa8 có nguồn gốc từ nhà cung cấp địch vụ (ASP — Application Service

Providers)

Ban dau, phan mém nhu một dich vu (SaaS) không chỉ đơn giản thục hiện trên

Internet, vi lợi ich an ninh va dé tin cay, cdc dich vy nay sé sit dung mang riéng ao (VPN

— Virtual Private Networks) Mét VPN có thể tạo một mạng công cộng từ mạng cục bộ

(bang cách sử dụng một số hình thức mã hóa) thay vi phải mua kết nổi chưyên dụng, việc nay cho phép trayền dữ liệu an toàn qua mạng công công như Tntemiet

Ví dụ về phần mềm địch vụ như: Yahoo Mai, Facebook, Skype, GoogleApps Mat

số công ty sử dụng trang xã hội Facebook như là một mạng nội bộ miễn phí cho nhân viên

của minh Skype được sử đụng bởi các đoanh nghiệp nhỏ trên toàn thể giới, GoogleApps

có tới hơn mệt triệu doanh nghiệp sử dụng,

b TuaS

Co sé ha tang như một dịch vụ (IaaS) là việc phân phối phần cứng máy tính (máy chú,

dich vụ, nó cũng có thể bao gồm

công nghệ mạng, lưu trít và không gian dít liệu) như m

việu cưng cấp các hệ thống điều hành và các công nghệ äo hóa quản lý tái nguyên

Với laaS, khách hang thuẻ tài nguyên thay vi việc mua và cải đặt đữ liệu vào trung

tâm đử liệu của họ Dịch vụ thường được trả tiên theo lượng tài nguyên sử đụng Dịch vụ

có thê mở rộng nêu khách hang có nhu cảu sử đựng nhiều tải nguyên hơn so với ban đâu,

Họ có thể nhận được ngay lập Lúc khi có yêu câu Khả năng mỡ rộng lĩnh hoại của cơ số

18

Trang 20

ha tang cho phép nỏ mở rộng hoặc thu hẹp bủy theo yêu càu của ứng dụng Ngoài ra, tham

số cung cấp liên quan đến cắp độ dịch vụ được thỏa thuận

c PaaS

“Trong nên tăng như một dich vu (PaaS Platform as a Service), nha cung cấp sẽ cung, cấp nhiều hơn cơ sở hạ tảng, nó có thể coi như một ngăn xếp các giải pháp — một tập hợp các tải nguyên yêu câu đề nhà phát triển có thể xây dựng ứng dụng gồm cá phin mém va

thời gian chạy Paa5 có thể coi là phát triển của địch vụ Web hosting Trong cáo nằm gân

đây các công ty địch vụ Web hosting cũng cung cấp các gới phản mém kha hoan chinh để xây đựng các trang Web PaaS có ý tưởng xa hơn, đó là cung cấp một nên tảng bao gồm toàn bộ các Hên trình trong vẻng đời phát triển của phẩn mềm: phân tích, thiết kế, xây

đựng, kiếm thủ, triển khai và bảo trì Lợi ích chính của PaaS là phát triển và triển khai

phân mềm dựa hoàn toan vào dịch vụ đám mây, do đó không có quản lý và bảo trí, quá

trình phát triển từ giai đoạn thiết được thực thủ trên đảm mây PaaS tao ra tính răng,

đông, có thể mở rộng, thu hẹp, cung cap dia chi cụ thể và các dịch vụ tiêu chuẩn cho truy

xuất và bảo ruật dữ liệu của khách bàng Một số vi du vé các nêu tầng như một dịch vụ

(PaaS): Google App Hngine, Applet, Htelos, Qrimp, Force.com

1.3.4 Đặc điểm của Đăm mây

a Tự sửa chiữa

Bất kỳ ứng đụng hoặc dịch vụ nào dang chạy trong một môi trường dign toan dam xnây có một tính chất tự sửa chữa Trong trường hợp ứng dụng lỗi, luôn luôn cỏ ruột dự

phỏng tức thời của ủng, dụng sẵn sảng đẻ cho công việc không bị gián doạn Có nhiêu bán

sao của cùng một ủng dụng - mỗi bản cập nhật chỉnh nó thường xuyên vỉ vậy ở những,

lần lỗi, có it nhất một bản sao của ứng dụng có thẻ lây lên hoạt động má thậm chỉ không, cần thay đổi nhỏ nào trong trạng thái hoạt động của nó

b._ Lượng tray cập lớn

Với điện toản đảm mây, bất kỳ ứng dụng nào cũng hỗ trợ đa người dùng trong củng

thời gian Hệ thông cho phép một số khách hàng chia sẽ oơ sở hạ tảng đưạc phân bố cho

thợ mã không ai trang họ nhận biết về sự chia sẻ này Diễu này được thục hiện bởi việc ão hóa các máy chủ trong một đâi các máy tỉnh và sau đẻ cấp phát các máy chủ đến nhiều

Trang 21

người sử dụng Điều này dược thực hiện theo cách má trong đỏ sự riêng tư ca người sử đụng và bảo mật của đữ liệu của họ không bị tổn hại

Hệ thẳng Điện toán đám mây bao gồm nhiều các địch vụ, những địch vụ như vậy

được Tạo ra từ những địch vụ rời rae khác Nhiễu dịch vụ được tạo ra do sự kết hợp của

nhiều địch vụ độc lập lại với nhan dé tao thành, Điều này cho phép việc tái sử dụng các dịch vụ khác nhau sẵn có hay đang được xây dựng

e Diu khién SLA(Service level agreement)

Thông thường các doanh nghiép sé théa thuận trước về số lượng các địch vu Nhung

yêu cầu mở rộng và các vin để phát sinh trong quá trình hoạt động, phát triển có thể là

ch các thỏa thuận này bị phá vỡ Tuy nhiền, các dịch vụ điện toàn đám mày là hưởng SLA(Service level agreement), nhu việc khi hệ thống có dạt mức dinh của tải, nó sẽ Lự

động diều chính chính nó để tuân thủ các thỏa thuận ở cấp độ dịch vụ Các dịch vụ sẽ tạo

ra thêm những thục thể của ứng dụng trên nhiều server dé cho việc tải có thể dé dang

quan lý

£ Khã năng do hóa

Cáo ứng dụng trong điện toán đám mây hoàn toàn tách rời khỏi phần cứng năm bên dưới Môi trường điện toán đảm mãy là một môi trường áo hóa đây dit

& Tink ứng dụng linh hoạt

Một tính năng khác của cáo địch vụ điện toán đám mây là chúng linh hoạt Chúng số

thể được dùng

dụng nhỏ cho đến ứng đụng thương mại lớn

phục vụ rất nhiều loại công việc có khối lượng khác nhau từ một ứng

Trang 22

1.3.5 Lợi ích của công nghệ lưu trữ đám mây

& Tỉnh linh hoạt

Khi một doanh nghiệp cần nhiều băng thông hơn thông thường, dịch vụ dựa trên nên tảng điện toản đám mây có thẻ đáp ứng yêu cầu đó ngay lập tức nhờ dung lượng lớn của

dịch vụ máy chủ tử xa

Trên thực tê, tính linh hoạt là yếu tổ mang tỉnh quyết định Theo một khảo sát của

trang InformationWeek, 65% người được hỏi cho rằng “khả năng nhanh chóng đáp ứng

yêu cầu” là lý do quan trọng đề họ chuyên sang dùng điện toản đám mây,

b_ Khắc phục sự cỗ

Hình CH-IH.S.b— 1 Truy cập đảm may

Với các địch vụ đựa trên nên tăng điện toán đám mây, doanh nghiệp khong can những

kế hoạch khắc phục sự cổ phức tạp Điện toán đám mây sẽ giải quyết hau hét nhimg van

để phát sinh nhanh chỏng hơn Tập đoàn Averdeen thấy rằng những doanh nghiệp sử

dụng điện toản đám mây cỏ thẻ khắc phục sự có trung bình trong 2.1 tiếng,nhanh hơn gần 4 lần so với các doanh nghiệp không sử dụng điện toán đám mây (§ tiếng) Một nghiên cứu tương tự cũng cho thấy một doanh nghiệp cỡ vừa có thời gian khôi phục tốt

hơn, chỉ bằng một nửa thời gian so với các doanh nghiệp lớn

e_ Phần mm tự động cập nhật

Theo một số liệu tổng hợp, năm 2010, các doanh nghiệp ở Anh mat 18 ngảy làm việc

mỗi tháng chỉ để quản trị an ninh mạng Nhưng giờ đây điện toán đảm mây sẽ thực hiện

22

Trang 23

huôn việc báo trí máy chủ, bao gồm cả việc cập nhập an ninh mạng, giúp khách hàng tiết kiệm thời gian vả nguồn lực cho những công việc khác

d_ Miễn giảm chỉ phí đầu ñr

Dịch vụ điện toán đám mây thường được chi trá tủy theo mức sứ dụng, vì vậy doanh

nghiệp hoàn toàn không cần chí phí đầu tư tài sân cổ định ban đầu Ngoài ra, điện toán đám mây được triển khai nhanh hơn, doanh nghiệp sẽ có chi phi dau tư ban đâu thấp va

chỉ phi vận hành có thế được đự đoán trước

£ Tăng cường làm việc nhỏm

Điện toán đám mây giúp tăng cường làm việc nhóm thông qua việc cho phép nhân viên — ở bất cứ đâu — đêu có thể đảng bộ và tiếp tục lâm việc với dữ liện, đồng thời chia

sé cae ứng dụng với nhau Điện toán đám mnây cũng cho phép theo sát và cập nhập dữ liệu

theo thời gian thực tế

‘Mét khio sat cia Frost & Sullivan cho thay những doanh nghiệp đầu tư vào công nghệ

Jam việc nhớm có tỷ lệ hoàn vốn đầu tư lên đến 400%

f Lam vide 6 moi noi

Chỉ cần truy cập được internet, nhân viên có thế làm việc ở bắt cit đầu

Tính linh hoạt nảy ảnh hướng tích cực dễn việc cân bằng giữa cuộc sóng công việc

và năng suất của lao động trị thức

Một nghiên cứu cho thấy 42% lao động sẵn sảng từ bỏ trung bình 69 thư nhập của

min nêu họ có thể làm việc lừ xa

g kiểm soát dữ liệu

Theo một nghiên cửu, “739% lao dộng tri thức lámn việc với những người ở múi giờ và

địa điểm khác nhau ít nhất một tháng một k

Nếu doanh nghiệp không sử đụng điện toản đám mây, nhân viên phải gửi tải liệu qua bại thông qua thư điện tủ, có nghĩa là chỉ có 1 người có thể làm việc với ! tải liên vào

củng 1 thời điểm Ngoải ra, củng 1 đữ liệu sẽ có rất nhiều tên và định dạng khác nhau

Trang 24

Điện toán dám mây lưu trữ tất cả các tải liệu ở một vị trí trung tâm, vả mọi người sẽ lám việc với 1 bản sao trung tâm Thậm chỉ, nhẫn viên có thể trỏ chuyện với nhau vả cúng

nhau thay đổi nội dung dữ liệu

b Bão mật

Tiảng năm có khoảng 800.000 máy tính xách tay bị mắt chỉ riêng ở sân bay Diễu này

có thể tiểm ẫn những nguy cơ tải chỉnh nghiém trọng Nhưng khi mọi thử được lưu trữ ở

điện toán đảm mây, dữ liện vẫn có thế được truy cập bất kế có chuyện gì xây ra với máy

tính

š_ Tỉnh cạnh tranh

Điện toán đám mây giúp cáo đoanh nghiệp vừa và nhỏ tiếp cận cắp công nghệ nhóm đoanh ngiệp Nó cũng cho phép những doanh nghiệp nhô hơn hành động nhanh hơn doanh nghiệp lớn, cạnh tranh với các doanh nghiệp khác

"Một nghiên cửu về khắc phục sau sự cổ đưa ra kết luận cuối củng rằng đoanh nghiệp

không sử đựng điện toán đám mày phải tin cậy vào cáo phương pháp sao lưu băng từ và các phương thúc phúc tạp kháo để khôi phục những thứ mà người sử đựng điện toán đám

mây không cân sử đụng vi nó gây nên sự chậm trễ vả khó khăn

4 Thân thiện với môi tường

Doanh nghiệp sử dụng điện toán đám mây chỉ sử đụng không gian máy chủ minh cần,

từ đó làm giãm “đấu chan carbon” Sit dung điện toán đám mây dẫn đến giảm íL nhất 30% năng lượng tiêu hao và chất thải carbon so với máy chủ riêng Một lần nữa,

doanh nghiệp vừa và nhỗ lại có tu thế: đoanh nghiệp nhồ có [hể giảm 909á răng lượng sử

dung va chải thải carbon so với các doanh nghiệ lớn

1.3.6 Dịch vụ đám mây lưu trữ

œ Mô hình dich vụ dâm mây lưu trit

Mệt hệ thông lưu trữ đám mày dược dảnh giá là chuyên nghiệp phải có những phương

an mỡ rộng hoạt động, có những phương thức giúp người dùng truy cập dữ liệu ở khắp nơi và bộ công cụ phẩn mềm linh hoạt trong cảc môi trường,

Thường có 3 loại mô hình đám mây lưa trữ là

Trang 25

On premise/internal Off premise/Third party

Hinh CLIII.6.a— 1M6 hinh dich vụ đảm mây lưn trữ

Dam may công cộng (Public Cloud): Các ứng dụng, lưu trữ và các tài nguyên khác

của đám mây công cộng được cung cập bởi một nhà cung cấp dịch vụ có sẵn Những dich

vụ nảy miễn phí hoặc trả phí theo mức độ sử dụng (pay - per - use) Nói chung, dữ liệu

của người dùng trong đám mây công cộng sẽ được lưu trên đám mây và được ủy quyên

cho nhà cung cấp dịch vụ quản lý

Đám mây riéng (Private Cloud): la co sé ha ting dién toan dam mây chỉ hoạt động

cho một tổ chức duy nhất, cho dù được quân lý, lưu trữ nội bộ (mternal) hay bởi một bên

thir ba (external), Với đảm mây riêng, người dùng sẽ được bao dam về đô an toàn đữ liệu

cao hơn, nó phủ hợp với những người dùng có dữ liệu nhạy cảm va doi hỏi tính riêng tư

cao

Đám mây lai (Hybrid Cloud): là một thành phần của hai hoặc nhiều đám mây (đám

mây riêng và đám mây công cộng) vân giữ nguyên các thực thể duy nhất nhưng liên kết

chủng với nhau, cung cấp các lợi ich của nhiều mô hình triển khai Bằng cách sử dụng

kiến trúc “đám mây lai”, các công ty và cá nhân có thẻ xử lý các lôi, kết hợp với khả năng,

sử dụng tại chỗ ngay lập tức mà không cần phụ thuộc vào kết nói internet

b Một số dịch vụ đám mây lưu trữ hiện nay

ONEDRIVE

Dung lượng lưu trữ miễn phí: 15 GB

Trang 26

De Microsoft phát triển, có thể nói rằng OneDrive cũng có chút "ho hang" với nên

tảng Windows 8 vàWindows Phone Hiện nay, dich vụ lưu trữ OneDrive đã được tích hợp bên trong mỗi tài khoảng Hotmail, Outlook (dich vu hép Mail ctia Microsoft) ngay tir khi

người dùng khởi tạo

Hình CLIH.6.b— I1 ONEDRILE

OneDrive được tích hợp trên hàu hết các thiết bị chạy Windows va WindowsPhone OneDrive cũng có môi liên hệ "thân thiết" với Mierosoft Office Theo đó, OneDrive

được tích hợp một số tác vụ hữu dụng như Word Online, Excel Online hay PowerPoint

Online Những tuỳ chọn nảy hỗ trợ người dủng tạo, tuỳ chỉnh, soạn thảo nội dung với

giao diện và tính năng gân giỏng với Word, Excel và PowerPoit cơ bản Ngay cả những

tập tin, văn bản được soạn thảo ban đầu trên PC rồi sau đỏ được tải lên OneDrive cũng cỏ thể để dàng chỉnh sửa nhanh Bạn có thẻ dễ dàng truy cập vảo kho đữ liệu OneDrive qua bat kỳ máy tính hoặc thiết bị di động nào có kết nổi với internet Ngoải ra, Microsoft cũng

đã phát hành phân mềm OneDrive trên khá nhiều hệ điều hành đành cho di déng

như Android, iOS hay WindowsPhone

s DROPBOX

Dung lượng miễn phi: 2 GB

Trang 27

Hinh CLII.6.b — 2 Dropbox

Giao diện đơn giản bên trong một tải khoảng Dropbox, sự đơn giản trong phong cách

thiết kế của trang web và ngay cã giao điện phần mềm Dropbox đều được đánh giá là rất

true quan, dé sit dung, Dropbox hé tro thao tae "kéo" va "tha" rat đơn giản

Co the thay, Dropbox phủ hợp với rất nhiều đôi tượng người dùng vốn thích sự đơn

giản, giảm bớt thao tác khi sử dụng

* GOOGLE DRIVE

Dung lượng miễn phí: 15 GB

Google Drive được người dùng và các chuyên gia về công nghệ nhìn nhận như là một

kho lưu trữ trực tuyến toàn diện nhất hiện nay

Google Drive co mặt trên vỏ số thiết bị công nghệ, nhất là mảng thiết bị di động miền

có sử dụng những dịch vụ liên quan đến Google điền hình là Android và Gmail

Trang 28

Google Drive

Keep everything Share anything

Hinh CLII.6.b—3 Google Drive

Google Drive ngoài chức năng lưu trữ còn hỗ trợ khá nhiêu tính năng mở rộng khả tiện lợi cho người dùng

Google Drive còn có thể hỗ trợ truy cập và chỉnh sửa các tài liêu như Word, Excel và

PowerPoint Ung dung Google Drive cing đang có mặt trên 2 hệ điều hành phố biên nhất

hién nay là Android và 1OS

+ BOX

Dung lượng miễn phí: 10 GB

Box nhằm đến đổi tượng người ding thuộc phân khúc doanh nhân riêng biệt Dịch vụ Box có cơ chế bảo mật cao, hỗ trợ can thiệp và tuỷ chỉnh sâu vào cách thức trao đổi thông,

tin của chủ sở hữu tải khoản đối với các cá nhân khác.

Trang 29

Giao diện của Box đơn giản nhưng chuyên nghiệp, phong cách thiết kế hướng đến

người đủng doanh nhân

Box cho người đúng nhiều tuy chỉnh điển hình như quyền quyết định đổi tương nảo

được xem, tải về để sử dụng hay chỉnh sửa đổi với từng nội dung, riêng được chọn Người

dùng con cé thé dat mật khẩu cho từng tập tin, thiết lập giới hạn vẻ thời gian chia sẻ cho

từng thư mục

Ngoài ra, Box hỗ trợ một số tính năng cơ bản tương tự như Microsoft Office va Adobe

Lightroom rất tiện lợi cho việc chỉnh sửa nhanh ngay trên Box.

Trang 30

CHUONG 2 XAY DUNG HE THONG LUU TRU DAM MAY VOT

HADOOP

2.1 Phát biểu bài toán và lựa chọn giải pháp

211 Phát biểu bài toán

Đổ giải quyết nhù cầu sử dụng hệ thống lưu trử dám mây dễ xây dựng một hệ thống thư viện linh động, dễ sử dụng phục vụ cho nhu cầu

2.12

Tam trữ thông tin cá nhân, lỗ chức

Đầm bảo quyển riêng tư và bão mật thông tin trên hệ thông thư viên dâm bảo Irảnh

việc lộ thông tấn hay đọc uộm dữ liệu

Nhụ cầu lưu lzữ công văn, giấy tỏ, tải liệu số hỏa, giáo trình, luận vẫn, nghiên cứu

khoa học

Lựa chọn giải pháp công nghệ

Dổ kho dữ liệu theo mô hình lưu trù đám mây có thể đáp ứng mục tiêu đễ sử dụng

rộng rãi, lưu trữ lượng đữ liêu lớn trang thời gian lâu đài, tiết kiêm kinh phí và khả nắng

chịu lỗi tôi đề xuất việc sử đựng Tĩadoop — IIDIFS cho việc xây dựng hệ thống máy

chủ để triển khai Lưu trữ đám mây, với các lợi điểm:

Tiết kiệm kinh phí bản quyên khi được triển khai trên hệ diéu hanh Linux nh

Ubuntu, CentOS

Hadoop HDES lả một mã nguồn mở uy tín trên thế giới, đã được sự ủng hộ cũng

như sử dụng của Yahoo, Google, IBM

“Tiết kiệm chi phi ha tang phẩn cứng, vi:

œ Khả năng chịu lỗi trên cụm máy chủ khi phát sinh các vẫn dé về hệ điều hành, lỗi phản cứng

© 1ladoop IIDWS có thể triển khai trên một cụm các máy có câu hình thấp,c

có thê tận dụng các máy để bàn cũ đã qua sử dụng, điều nảy đáp ửng véu cầu và hiện trạng thục tế tại nhiều địa phương, co quan, trường học ở

Trước ta hiện nay

e_ Khả năng mở rộng lén: Khả năng mỗ rộng lên tới hơn 4000 máy, Như vậy,

thay vì triển khai các máy chủ với giá thành cao, ta có thể triển khai tận

30

Trang 31

đụng hàng trăm tới hàng nghĩn các máy có cầu hình tháp (thậm chí là cụm

các máy bản đã qua sử dụng )

¬ _ Đập ứng lượng truy cập lớn: phân tài truy cập dữ liệu lên các máy trong cluster

‘rong chương nảy tôi sẽ di vao giới thiệu tổng quan về Iladoop Iistributed Hile System và việc triển khai 11DES xây dựng kho lưu trữ dữ liệu

2.2 Big Data

2.2.1 Big Data la gi?

Big Data lén về số lượng, được xử lý với tốc độ nhanh, có cầu trúc hoặc không có cầu trúc, hoặc lá bao gồm các yêu tổ ở trên Những yêu tổ này làm cho Big Data khó xử lý,

khai phá và quản lý nếu đùng các phương thức truyền thông,

'Tinh đến năm 2012, các hệ thông được coi lả iớn nằm trong phạm vi 100 Petabyte

au trite Cac co

Dữ liệu lớn có thế vừa là đữ liệu có cầu trúc, vừa là đữ liệu không có

sở đứt liệu quan hệ truyền thống, như Informix và DB2, cung cấp các giải pháp đã được kiểm chứng với dữ liệu cỏ câu trúc Thông qua khả năng mở rồng, các cơ sở đữ liệu này cũng quân lý cả đữ liệu không có câu trắc Công nghệ Hadoop mang đến những kỹ thuật lập trình mới vả dễ sử dụng hơn đẻ làm việc với các kho dữ liệu lớn có cá dữ liệu có cấu trúc lần dữ liệu khỏng có cấu trúc

2.2.2 Hadoop là gi?

Apache Hadoop là một framework ding để chạy các ứng dụng wén 1 cluster lon được

xây dụng trên những phần cứng thông thường Hadoop hiện thục mô hình Map/Reduee, đây là mô hình ma ứng dụng số được chía nhỏ re thành nhiều phân đoạn khác nhau, và

các phân này sẽ dược chạy song song trén nhiéu node khac nhau

a Gidi thigu so lege Apache Hadoop

Apache Hadoop được Doug Cutting, người viết badoop, đặt tên theo tên con voi dé

chơi của con ông fa, dễ nhận dược sự ng hộ và ủng dụng của Yahoo, Google, LBM

Lladoop cé thé chay các ứng dụng với lượng dữ liệu lớn một cách nhanh chóng, chính xác, hiệu quá cao bằng cảch lưu vả tính toàn dữ liệu trên nhiễu node một cách độc lập llađocp có 2 thành phân chủ yếu là IIDTS (Iladoop Distibuted File System) va MapReduce

31

Trang 32

Nhin tir bén ngồi, fles lưu trên HDEFS giống như lưu trong Windows hay Linux Ta

cĩ thể thêm mới, đổi tên, di chuyển, xĩa Dữ liệu được chia ra thành các blocks lưu trữ

trên rất nhiều DataNode, mỗi block cĩ nhiều bản sao (mặc định là 3) lưu trên nhiều

DataNode khác nhau, để nhằm mục đích đự phỏng khi một DataKode nào đĩ oĩ sự cá thì

an hoạt động bình thường Ngồi ra cờn cĩ 1(và chỉ 1) NameNode lam nhiệm

hệ thơng

vụ quân l¡ đứ liện và điều tiết các lệnh yêu câu thao tác đứ liệu

MapReduoe giúp cho việc xứ li sơng song được thuận lợi, gỏm 3 bộ phận: hàm Map

để phân tích đata thành các cặp: key, value, ham Reduce căn cử vào các key để gom tập

hop các cặp như vậy lại với nhau và đưa ra kết quả xử lý; hàm Main đề điều tiết Mỗi một thao tác Map hoặc Reduce dugc goi la TaskTracker Théng thường TaskTrackers duoc chạy trên DalaNodes để giảm đường truyền Tasktrackers được IobTracker căn cứ vào

thơng tin cửa các blocks để khởi tạo trên DataNode phù hợp IolzTracker khơng nhật tiếL

chạy lrên cùng máy với NameNộc

Hadoop đang ngày càng được ứng đụng và phát triển rộng rãi tại nhiễu nước, tuy

nhiên chưa cỏ nhiều ở Việt Nam hiện nay

» Dink nghĩa về Hadòp

Đưới đây là một vài định nghĩa của TBM về Hađoop, mỗi định nghĩa nhắm vào một nhĩm đối tượng khác nhau trong doanh nghiệp:

-_ Đi với các giám đốc điền hành: Hadoop là một đự án phân mềm nguồn mở của

Apache để thu được giá trị từ khối lượng/ Lộc đội lính đa đang đáng kinh ngạc của

dữ liệu về tổ chúc của bạn 1lãy sử dụng dữ liệu thay vì vứt bd hau hết đữ liệu đĩ

di

-_ Đấi với các giảm dốc kỹ thuậ

pha Big Data cĩ cầu trúc và khơng cĩ cầu trúc về cơng, ty của bạn Nở tích hợp với

hệ sinh thái Business Intelligenoe của bạn

-_ Đơi với nhân viên nháp lý: Hadoop là một bộ phân u

nguồn mở được nhiều nhà cung cấp dong gĩi và hỗ trợ Hãy xen phần Tài nguyên về việc trả tiên sở hữu

trí tuệ (1P)

-_ Đãi với các kỹ sư: Iladoop là một mơi trường song song thục thi map-reduce dua

trên Java, khơng chúa sẽ gì cà Hãy nghĩ đến làng trăm, hàng ngần mấy tính đang

Jam việc dễ giải quyết cùng một vẫn đề, cĩ khả năng khơi phục lỗi dựng sẵn Các

diy én trong hé sinh thải Hadop cung cấp khá năng load (tái) dữ liệu, hỗ trợ ngơn ngữ cấp cao, Iriển khai trên đấm mây tự động và các khả năng khác

32

Trang 33

- Déi với chuyên gia bảo mật: Hadoop là một bộ phân mềm bảo mật-Kerberos

2.2.3 Thanh phan của Hadoop

Dự án Hadoop của Apache có hai thánh phần cốt lõi, kho lưu trữ tệp gọi là Hadoop

Distributed File System (HDES _ Hệ thống tập phân tân Hadoop) và khung công tác lập

trình gọi là MapReduce Có một số dự án hé tro dé sit dung LIDI‘S va MapReduce

+ FDFS: Néu bạn muốn có hơn 4000 máy tỉnh làm việc với dữ liệu của bạn, thì tốt hơn bạn nên phổ biến đữ liệu của bạn trên hơn 4000 máy tỉnh đó TDTS thực hiện điều này cho bạn HDES có một vải bộ phận dịch chuyển Các Dalanode (Nút đữ

liệu) lưu trữ đữ liệu của bạn và Namenode (Nút tên) theo đối nơi lưu trữ các thứ

- MapReduce: Day la mẽ bình lập trinh cho Lladoop Có hai giai đoạn, Map và Reduce JobTracker (Trinh thee déi công việc) quản lý hơn 4000 thành phần công vide MapReduce

- Hadoop Streaming: Mét tign ich để tạo nên mã MapReduce bằng bất kỳ ngôn ngữ nảo: C, Perl, Python, C+-, Bash, v.v Cac vi du bao gdm mét trinh mapper

Python va mét trình reducer AWK

- Hive va Hue: Ta cd thé viel SQL va yêu câu Hive chuyển đổi nó thành mội tác vụ

MapReduce Ta cd 4000 ghi chép va kha ning mé roug, quy mé ra nhiéu Petabyte

Tue cung cAp mệt giao điện đồ họa dựa trên trinh duyệt để làm céng viéc Ilive

- Pig: Mét méi trường lập trinh mức cao hơn dé viét ma MapReduce Ngôn ngữ Pig

dược gọi là Pig Latin Ta có thể thấy các quy ước đặt lên hơi khác thường ruột

chút, nhưng Pig có tý số giá-hiệu năng đáng kinh ngạc vả tính sẵn sảng cao

-_ Sqoap: Cung cấp việc truyền đữ liệu hai chiêu giữa [ladoop va cơ sở đữ liện quan

liệu quan hệ, mặc đủ có tên là IIBase

- FlumeNG: Trinh nạp thời gian thực để tạo luông dữ liệu của người dùng vào

Hadaop Nỏ lưu trữ dữ liệu trong HDES và HBssc

- Whirm: Cung cấp Đảm mây cho Hadoop Ta có thể khói động một hệ thống chỉ trong vài phút với một tệp câu hình rất ngắn

-_ Mahout Máy bọc đành cho Hadoop Được sử dụng cho các phân tích dự báo và phân tích nâng cao khác

33

Trang 34

- Fuse: Lam cho hệ thống HDFS trông như một hệ thông tệp thông thường, do đó ta

có thẻ sử dụng lênh ls, cd, rm và những lệnh khác với dữ liệu HDFS,

- Zookeeper: Được sử dụng dé quan ly đồng bộ cho hệ thông Bạn sẽ không phải

lâm việc nhiều với Zookeeper, nhưng nó sẽ làm việc rất nhiều cho bạn

Shuffle/sort mapper output

Mapper - read 64+ MB bloc<s

ssilsss-sss

Hinh CILILS— 1 Thanh phan ctia Hadoop

HDES, tâng dưới củng, nằm trên một cum phân cứng thông thường Các máy chủ lắp

vào tủ khung (rack-mounted) đơn giản, mỗi máy chủ có các CPU lõi 2-Hex, 6 đến 12 đĩa

va 32 Gb ram Đổi với một công việc map-reduce, tảng trình ánh xạ đọc từ các đĩa ở tốc

độ rất cao Trình ảnh xạ phát ra các cặp khóa giá trị được sắp xếp và được đưa tới trình

rút gọn vả tâng trình rút gọn tỏm lược các cặp key-value

2.2.4 Lợi ích từ công nghệ Big Datacủa Hadoop

~_ Mang tỉnh toán và lưu trữ lại cùng với nhau trên phân cửng thông dụng: Cho ket

quả tốc độ nhanh với chi phí thập

-_ Tỷ số giá hiệu năng: Công nghệ Big Data của Hadoop đưa ra mức tiết kiêm chi phi đáng kế (một hệ số nhân xáp xỉ 10) với những cải thiện hiệu năng đáng kẻ (một lân nữa, hệ số nhân lả 10)

-_ Khả năng mở rộng quy mô tuyến tính: Hadoop có khả năng mở rộng quy mô kế từ

khi phát hành bản mới nhất có khả năng mở rông giới hạn số lượng các nút vượt

qua 4,000

- Truy cập đây đủ đến dữ liệu không có cầu trúc: Một kho đữ liệu có thể mở rộng

quy mô cao với một mô hình lập trình song song thích hợp, MapReduce, đã là một thách thức cho ngành công nghiệp từ lâu nay Mô hình lập trình của Hadoop

34

Trang 35

không giải quyết tắt cả vận để, nhưng nó là một giải pháp mạnh cho nhiều nhiệm

vụ

2.3 Hadoop Distributed File System (HDFS)

Hadoop cung cấp một hệ théng tap tin phan tin HD¥S (Hadoop Distributed File System) dé tao ra một nên tảng lưu trữ dữ liệu đáp ứng cho một khối lượng dữ liệu lớn và

chỉ phí rẻ

2.3.1 Giới thiệu

HDES kề thừa các mục tiêu chưng của các hệ thông lilc phản tán trước đỏ như dé tin

trữ dữ liệu của Nutch, một dự án Search Engine mã nguồn mở, vả phát triển dễ dáp ứng

các đòi hỏi về lưu trữ cũng như xử lý của các hệ thống xử lý dữ liệu lớn với các đặc thủ

riêng, Do đó, cỏ nhiều sự khác biệt trong mục tiêu của HIOES sơ với các hệ thống file

phân tán truyền thông, như

-_ Các lỗi về phản cửng sẽ thường xuyên xây ra Hệ thống HDFS sẽ chạy trên các

cluster voi hang trim hoặc thậm chi hang nghin node Cac node nay được xây

đựng, nên từ các phan cứng thông thường, giá rẻ, tỷ lệ lỗi cao Chất lượng và số

lượng của các thành phẩn phân cứng như vậy tắt yếu dân dến t lệ xảy ra lỗi trên cluster sẽ cao Các vẫn để có thể điểm qua như: lỗi của ứng dụng, lỗi của hệ điều

hành, lãi đĩa cứng, bộ nhó, lỗi của các thiết bị kết nối, lỗi mạng, và lỗi về nguồn

điện Vì thế, khả năng phát hiện lỗi, chống chu lỗi và tự dộng phục hỏi phải được tich hop vao trong hé théng HDF

-_ Kích thước file lớn hơn so với các chuẩn truyền thống, các file có kích thước hàng

GB sẽ trở nên phổ biến Khi làm việc trên các tập dữ hệu với kích thước nhiều TP,

Ít khi nào người ta lại chọn việc quân lý bàng tỷ file có kích thước hàng KE, thậm

chỉ nêu hệ thông có thể hỗ trợ Việc phân chia tập đữ liệu thành một số lượng it

file có kích thước lớn sẽ

ói ưu hơn, nỗ giúp giã thời gian truy xuất đữ liệu và

đơn giản hoá việc quân lý các tập tin

~ Hau hết các file đều dược thay dỗi bằng cách appcnd dữ liệu vào cuối file hơn là

ghi đè lên đũ liệu hiện có Việc ghỉ đữ liệu lên một vị trí ngẫu nhiên trong file

tổn tại Một khi đã được tao Ta,

only), va thuong duge dec mét each tuan ty Co rat nhiều loại dữ liệu phủ hợp với các dic diém trén: cdc kho dit ligu lon dé cdc chuong trinh xi ly quét qua va phân

tích đữ liêu hay là các đòng đữ liêu được tạo ra một cách liên tục qua quá trình

chạy các ửng dụng (vi dụ như các file lop) Đó có thể lá kết quá trung gian của

trở thành file chỉ đọc (read-

35

Trang 36

một mảy nảy và lại được dùng làm đầu vảo xử lý trên một máy khác Do đó, việc

append dữ liệu vào file sẽ trở thánh điểm chính đề tối tu hoả hiệu suất

Các block của cùng một file (trừ block cuối củng) sẽ có củng kích thước vả kích

thước nảy được gọi là block size của file đỏ

Mỗi block của file sẽ được lưu trữ thành ra nhiều bản sao (repliea) khác nhau vì mục địch an toán dữ liệu (xem mô hình phía dưới)

mee cacthing csp vena igy PSK DA

> Cae thong diép truyền yêu cầu

Hinh CILMI.2 — 1 Kién tric HDFS

Trang 37

HDES cỏ một kiến trac master/slave, trén mét cluster chay HDFS, cé hai loai node ta

Namenode va Datanode Mét cluster co duy nhất một Namenode và cỏ một bay nhiều

phân cấp các file, thư mục của hệ thống file va

thể, các Metadata mà Namenode lưu trữ gồm cỏ:

- File System Namespace: là hình ảnh cây thư mục của hệ thống ñlc tại ruột thời

điểm nào đó Lile Svstem naraespace thể hiện tất các cáo Ble, thư mục có trên hệ

théng (ile va quan hệ giữa chúng

- Théng tin dé anh xa tir tén file ra thanh dank sach vac block: yor moi file

một danh sách cỏ thử tự các block của file dỏ, mỗi bleck dược đại diện bởi Block

ID

- Noi lua trit cdc block: Vai mdi block sẽ có một đanh sách các DataNode lim trữ

các bản sao cửa block dé

ó

2.3.3 Quá trình đọc file trên IDFS

Sơ để sau miêu tả rõ qua trình client đọc một file trên HDFS

37

Trang 38

1; Gửi yêu cầu đọc

`2: Danh sách cde block id va not lưu trữ

Hình CH.HI.3— 1 Quả trình đọc file trên HDFS

- Dau tién, client sé md file can doc bing cách gửi yêu câu đọc file đến NameNode

(1).8au đó NameNode sẽ thực hiện một số kiêm tra xem file được yêu cầu đọc có

tổn tại không, hoặc file cần đọc có đang ở trạng thái “khoẻ mạnh” hay không, Nếu mọi thứ đều ồn, NameNode sẽ gửi danh sách các block (đại điện bởi Block ID)

của file cùng với địa chỉ các DataNode chứa các bản sao của block nay

~_ Tiếp theo, client sẽ mở các kết nói tới Datanode, thực hiện một RPC dé yéu cau

của bloek từ DataNode “gân” nhất

- Client sé thuc hiện việc đọc các block lặp di lap lai cho đến khi block cudi củng

của file được đọc xong Quá trình client đọc dữ liêu từ HDES sẽ transparent với

của Hadoop để tương tác với HDFS, các API này che giâu đi quá trình liên lạc với

NameNode vả kết nói các DataNode đề nhận dữ liệu

Trong quả trình một client đọc một file trên HDES, ta thấy client sẽ trực tiếp kết nói

với các Datanode dé lấy dữ liệu chứ không cần thực hiện giản tiếp qua NameNode

(master của hệ thông) Điều nảy sẽ làm giảm đi rất nhiều việc trao đối dữ liệu giữa client

38

Trang 39

NameNode, khối lượng luân chuyên đữ liệu sẽ được trải đều ra khắp cluster, tình trạng bottle neck sẽ không xảy ra Do đó, cluster chạy HDES có thể đáp ứng đồng thời nhiều

client cing thao tac tại một thời điểm

2.3.4 Ghi file trên HDFS

‘So d6 sau mô tả quá trình tương tác giữa client lên hệ thông HDFS

-GÓjêulp> nie

Hình CH.HI.4— 1 Quả trình ghi file trên HDFS

~_ Đâu tiên, client sẽ gửi yêu cầu đến NameNode tạo một file entry lén File System

Namespace (1) File mới được tạo sẽ rông, tức chưa có một block nao Sau do,

NameNode sẽ quyết định danh sách các DataNode sẽ chứa các bản sao của file cân

gì và gửi lai cho client (2)

- Tiép theo, client sé chia file can gi ra thanh cac block, va voi méi block client sé

đồng gói thành một packet

- Client giti packet cho DataNode thir nhật, DataNode thử nhất sau khi nhận được

packet sẽ tiến hành lưu lại bản sao thử nhất của bloek Tiếp theo DataNode thứ

nhất sẽ gửi packet này cho DataNode thứ hai đê lưu ra bản sao thứ hai của block

Tương tự DataNode thứ hai sẽ gửi packet cho DataNode thứ ba Cử như vậy, các

DataNode cũng lưu các bản sao của một block sẽ hình thành một ông dân dữ liệu

data pipe

39

Ngày đăng: 21/05/2025, 20:53

HÌNH ẢNH LIÊN QUAN

Hình  CH-IH.S.b—  1  Truy  cập  đảm  may - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CH-IH.S.b— 1 Truy cập đảm may (Trang 22)
Hình  CLIH.6.b—  I1  ONEDRILE - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CLIH.6.b— I1 ONEDRILE (Trang 26)
Hình  CI.HI.6.b—  4.  Box - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CI.HI.6.b— 4. Box (Trang 29)
Hình  CH.HI.4—  1.  Quả  trình  ghi  file  trên  HDFS - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CH.HI.4— 1. Quả trình ghi file trên HDFS (Trang 39)
Hình  CHI.IU  —  3.  Mô  hình  xây  đựng  phần  mềm  Client  lương  tác  HDES - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHI.IU — 3. Mô hình xây đựng phần mềm Client lương tác HDES (Trang 43)
Hình  CHI1I.2.b-1  Mô  hình  mã  đổi  xứng - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHI1I.2.b-1 Mô hình mã đổi xứng (Trang 46)
Hình  CHIL11.2.e-1  Mô  hình  mã  bắt  đỗi  xứng - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHIL11.2.e-1 Mô hình mã bắt đỗi xứng (Trang 47)
Hình  CHH.H.2.e-1  Mô  hình  mã  hóa  khóa  lai. - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHH.H.2.e-1 Mô hình mã hóa khóa lai (Trang 49)
Hình  CHI.I.2.g~1  Mã  hóa  thông  điệp  sứ  đụng  khỏa  công  khai - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHI.I.2.g~1 Mã hóa thông điệp sứ đụng khỏa công khai (Trang 50)
Hình  CHI.IH.1  Mã  Caesar  với  độ  dịch  là  3 - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHI.IH.1 Mã Caesar với độ dịch là 3 (Trang 51)
Hình  CHI.II.3—  1  Độ  giao  giữa  các  Tập  văn  bản  mẫu - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHI.II.3— 1 Độ giao giữa các Tập văn bản mẫu (Trang 65)
Hình  CHI.IHH-1  Mô  hình  liệt  kê  tỷ  lệ  xuất  hiện  của  các  từ  trong  Tiếng  Liệt - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHI.IHH-1 Mô hình liệt kê tỷ lệ xuất hiện của các từ trong Tiếng Liệt (Trang 67)
Hình  CHI.LT—  1  Mô  hình  nén  và  giải  nén  văn  bản - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHI.LT— 1 Mô hình nén và giải nén văn bản (Trang 71)
Hình  CHH.VI-4.b—  1  Cửa  số  chức  năng  mã  hóa  văn  bản - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CHH.VI-4.b— 1 Cửa số chức năng mã hóa văn bản (Trang 75)
Hình  CU:V1-4.e  —  1  Cửa  số  chức  năng giải mã  văn  bản - Luận văn xây dựng kho dữ liệu an toàn với mã huffman
nh CU:V1-4.e — 1 Cửa số chức năng giải mã văn bản (Trang 76)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm