1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu ứng dụng công nghệ điện toán đám mây để phân tích dữ liệu lớn trong mạng thông tin di động

124 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Ứng Dụng Công Nghệ Điện Toán Đám Mây Để Phân Tích Dữ Liệu Lớn Trong Mạng Thông Tin Di Động
Tác giả Hồ Quốc Trung
Người hướng dẫn TS. Huỳnh Công Tú
Trường học Trường Đại Học Quy Nhơn
Chuyên ngành Kỹ Thuật Viễn Thông
Thể loại luận văn thạc sĩ
Năm xuất bản 2019
Thành phố Bình Định
Định dạng
Số trang 124
Dung lượng 2,63 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT API Application Program Interface Giao diện chương trình ứng dụngAWS Amazon Web Services Dịch vụ Web Amazon AaaS Analytics as a service Phân tích dưới dạng

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC QUY NHƠN

HỒ QUỐC TRUNG

NGHIÊN CỨU ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY ĐỂ PHÂN TÍCH

DỮ LIỆU LỚN TRONG MẠNG THÔNG TIN DI ĐỘNG

LUẬN VĂN THẠC SĨ: KỸ THUẬT VIỄN THÔNG

Bình Định - Năm 2019

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC QUY NHƠN

HỒ QUỐC TRUNG

NGHIÊN CỨU ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY ĐỂ PHÂN TÍCH

DỮ LIỆU LỚN TRONG MẠNG THÔNG TIN DI ĐỘNG

Chuyên nghành: Kỹ Thuật Viễn Thông

Mã số: 8520208

Người hướng dẫn: TS HUỲNH CÔNG TÚ

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Nghiên cứu ứng dụng điện toán đám mây

để phân tích Dữ liệu lớn trong mạng thông tin di động” là do tôi tự tìm hiểu

và nghiên cứu và hoàn thành dưới sự hướng dẫn của TS Huỳnh Công Tú

Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan này

Quy Nhơn, Ngày tháng năm 2019

Học viên

Trang 4

Tôi xin chân thành bày tỏ lòng biết ơn đến thầy TS Huỳnh Công Tú, người

đã tận tình hướng dẩn, giúp đỡ và tạo mọi điều kiện tốt nhất cho tôi hoàn thành luận văn này Xin chân thành bày tỏ lòng biết ơn đến quý Thầy Cô Trường Đại học Quy Nhơn và quý Thầy Cô đã giảng dạy tạo mọi điều kiện thuận lợi cho tôi học tập, nghiên cứu thực hiện đề tài luận văn tốt nghiệp này Tôi xin chân thành cảm ơn quý Thầy Cô phản biện đã đóng góp ý kiến, hướng dẩn cho bài luận văn được hoàn chỉnh

Cuối cùng tôi xin chân thành cảm ơn đến gia đình, các anh chị và các bạn đồng nghiệp luôn bên tôi, động viên tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề tài luận văn cuối khóa này

Bình Định, ngày tháng năm 2019

Học viên thực hiện

Trang 5

MỤC LỤC

MỞ ĐẦU 1

1 Lý do chọn đề tài: 1

2 Tổng quan về tình hình nghiên cứu đề tài 2

3 Mục đích và nhiệm vụ nghiên cứu 5

4 Đối tượng và phạm vi nghiên cứu 5

5 Phương pháp nghiên cứu 5

CHƯƠNG I: TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY VÀ DỮ LIỆU LỚN 6 1.1 Điện toán đám mây 6

1.2 Kiến trúc và đặc điểm của dịch vụ điện toán đám mây 8

1.2.1 Kiến trúc điện toán đám mây 8

1.2.2 Đặc điểm của dịch vụ điện toán đám mây 9

1.3 Mô hình và hoạt động điện toán đám mây 11

1.3.1 Cơ sở hạ tầng như một dịch vụ (IaaS) 12

1.3.2Nền tảng như một dịch vụ (Paas) 13

1.3.3 Phần mềm như một dịch vụ (SaaS) 14

1.4 Mô hình triển khai điển toán đám mây 15

1.4.1 Đám mây công cộng (Public Cloud) 15

1.4.2 Đám mây doanh nghiệp (Private Cloud) 17

1.4.3 Đám mây lai (Hybrid Cloud) 17

1.4.4 Đám mây cộng đồng (Community Cloud) 18

1.5 Tổng quan Dữ liệu lớn 18

1.6 Nguồn tạo ra dữ liệu lớn và các dạng dữ liệu 23

CHƯƠNG II: CÁC NỀN TẢNG CÔNG NGHỆ PHÂN TÍCH DỮ LIỆU LỚN VÀ VẤN ĐỀ BẢO MẬT 28

2.1 Công nghệ tiền xử lý dữ liệu lớn 28

2.1.1 Tích hợp 28

Trang 6

2.1.2 Làm sạch 29

2.1.3 Loại bỏ dữ liệu dư thừa 29

2.2 Phân tích dữ liệu lớn 30

2.3 Một số bộ công cụ phân tích dữ liệu lớn 31

2.3.1 Kiến trúc Apache Hadoop 31

2.3.3 Kiến trúc Spark 42

2.4 Ứng dụng điện toán đám mây phân tích dữ liệu lớn 57

2.4.1Trình điều khiển doanh nghiệp: 57

2.4.2 Phân tích dữ liệu lớn dưới dạng dịch vụ (Daaas) 59

2.4.3 Ứng dụng phân tích dữ liệu lớn dưới dạng dịch vụ DAaaS 60

2.4.5 Hạn chế của phân tích Dữ liệu lớn dưới dạng dịch vụ DAaaS 65

2.3 Vấn đề bảo mật 66

CHƯƠNG III: CÁC NHÀ CUNG CẤP DỊCH VỤ ĐIỆN TOÁN ĐÁM MÂY 73 3.1 Dịch vụ web của Amazon (AWS) 74

3.2 Microsoft Azure 79

3.3 Nền tảng đám mây của Google (GCP) 84

CHƯƠNG IV: ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY PHÂN TÍCH DỮ LIỆU LỚN TRONG MẠNG THÔNG TIN DI ĐỘNG 91

4.1 Nguồn dữ liệu trong mạng thông tin di động 91

4.2 Các trường hợp ứng dụng Dữ liệu lớn trong Viễn thông 99

4.3 Ứng dụng điện toán đám mây để phân tích dữ liệu lớn 99

4.3.1 Thiết lập Google Cloud và Môi trường truy vấn lớn 99

4.3.2 Nghiên cứu trường hợp thực tế 101

KẾT LUẬN 106

1 Những đóng góp của luận văn 106

2 Hướng phát triển của luận văn: 106

Trang 7

DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT

API Application Program Interface Giao diện chương trình ứng dụngAWS Amazon Web Services Dịch vụ Web Amazon

AaaS Analytics as a service Phân tích dưới dạng dịch vụ BdaaS Big Data as a Service Dữ liệu lớn như một dịch vụ

BI Business Intelligence Kinh doanh thông minh

CC Cloud Computing Điện toán đám mây

CPU Central Processing Unit Đơn vị xử lý trung tâm

CSV Comma Separated Values Giá trị phân cách bằng dấu phẩy

DR Disaster Recovery Phục hồi thảm họa

EC2 Elastic Compute Cloud Đám mây điện toán đàn hồi

EMR Elastic Map Reduce Bản đồ đàn hồi giảm

ETL Extract, Transform, Load Trích xuất, chuyển đổi, tải

GCP Google Cloud Platform Nền tải đám mây của Google GPU Graphics Processing Unit Đơn vị xử lý đồ họa

IaaS Infrastructure as a Service Cơ sở hạ tầng như một dịch vụ

AMS Microsoft Azure Điện toán đám mây của Azure NIST National Institute of Standards

Viện tiêu chuẩn và công nghệ

Trang 8

Opex Operational Expenditure Chi phí hoặt động

PaaS Platform as a Service Nền tảng là một dịch vụ

RAM Random Access Memory Bộ nhớ truy cập tạm thời

ERP

Enterprise Resource Planning Hệ thống hoạch định nguồn lực

Doanh nghiệp RDBMS Relational Database

Management Systems Hệ thống quản lý quan hệ dữ liệu S3 Simple Storage Service Dịch vụ lưu trữ đơn giản

SaaS Software as a Service Phần mềm như một dịch vụ TED Technology Entertainment Công nghệ giải trí

AWS Amazon Web Services Dịch vụ Web của Amazon

VM Virtual Machine Máy ảo

MIT Massachusetts Institute of

Technology Viện công nghệ Massachusetts

DCR Dynamic computing resources Nguồn tài nguyên tính toán động

CP Cloud Provider Nhà cung cấp đám mây

CCo Cloud Consumer Người tiêu dùng đám mây

PaaS Platform as a Service Nền tảng như một dịch vụ

IaaS Infrastructure as a service Cơ sở hạ tầng như một dịch vụ

Trang 9

VLAN Virtual Local area network Mạng cục bộ ảo

ROI Return on Investment Hoàn vốn đầu tư

GAE Google App Engine Máy ứng dụng Google

DBMS Database Management system Hệ quản lý cơ sở dữ liệu

ERP Enterprise Resource Planning Hệ thống hoạch định nguồn lực LHC Large Hadron Conllider Máy gia tốc hạt lớn

HD Hight Definition Truyền hình độ nét cao

SAS Scandinavian Arlines System Hệ thống kinh doanh hàng không RFID Radio Frequency Identification Công nghệ nhận dạng qua tần số

vô tuyến NFC Near - Field Communications Giao thức kết nối tầm gần

ELT Extract Transform Load Trích xuất chuyển đổi tải

HDFS Hadoop Distributed File System Hệ thống tệp phân tán Hadoop YARN Yet-Another-Resource-

Negotiator Bộ phận quản lý tài nguyên khác

RM Resource Manager Quản lý tài nguyên

AM Application Master Ứng dụng quản lý

Trang 10

ML Machine Learning Thư viện máy học

DAG Directed Acyclic Graph Đồ thị theo chu kỳ có hướng

DAaaS

Data Analytics as Service Phân tích dữ liệu lớn dưới dạng

dịch vụ SaaS Software As A Service Phần mềm như một dịch vụ

BI Business Intelligence Kinh doanh thông minh

IoT Internet of Thing Internet của vạn vật

IP Internet Protocol Giao thức Internet

TPS Intrusion Prevention Systems Hệ thống ngăn ngừa xâm nhập TDS Intrusion Detection Systems Hệ thống phát hiện xâm nhập AWS Amazon Web Service Dịch vụ Web của Amazon

GCP Google Cloud Platform Điện toán đám mây của Google IAM

Trang 11

CDR Call Detail Record Bản ghi chi tiết cuộc gọi HLR Home Location Register Nơi đăng ký dữ liệu tại chổ CRM Customer relationship

Trang 13

DANH MỤC CÁC HÌNH

Hình 1 1 Kiến trúc điện toán đám mây 8

Hình 1 2 Mô hình 3 lớp dịch vụ điện toán đám mây 12

Hình 1 3 Mô hình triển khai điện toán đám mây 17

Hình 1 4 Sự tăng trưởng và lưu trữ thông tin dữ liệu lớn trên toàn cầu 20

Hình 1 5 Mô hình “5Vs” của Big Data – Nguồn Internet 21

Hình 1 6 Hoạt động của người dùng Wikipedia được mô hình hóa và với kích thước hàng Terabyte, đây cũng là một dạng Dữ liệu lớn 25

Hình 2 1: Hệ sinh thái của Apache Hadoop v1.x 32

Hình 2 2: Hệ sinh thái của Apache Hadoop v2.x 33

Hình 2 3: Các dịch vụ bên trong một hệ thống HDFS phiên bản 1.x 36

Hình 2 4 : Các dịch vụ bên trong một hệ thống HDFS phiên bản 2.x 38

Hình 2 5: Các dịch vụ bên trong một hệ thống Apache Hadoop phiên bản 2.x 40 Hình 2 6: Mô hình MapRecude thế hệ thứ 2 41

Hình 2 7 Mô hình Spark được xây dựng trên nền tảng Hadoop 44

Hình 2 8: Kiến trúc thành phần lõi Apache Spark 46

Hình 2 9 Khung hoặt động tương tác trên MapReduce 49

Hình 2 10 Chia sẻ dữ liệu bằng Spark RDD 50

Hình 2 11Hoạt động tương tác trên Spark RDD 51

Hình 2 12 Hoạt động truy vấn trong RDD 51

Hình 2 13 So sánh Spark với Hadoop MapReduce 54

Hình 2 14 Thống kê số lượng ứng dụng dử dụng Spark 55

Hình 2 15 Đóng góp của Spark trong lĩnh vực phân tích Big Data 56

Hình 2 16 Các đối tác của Spark 56

Hình 2 17- Dữ liệu lớn và đám mây xen kẽ 58

Hình 2 18 Phân tích Dữ liệu lớn dưới dạng dịch vụ là sự kết hợp giữa phân tích dữ liệu lớn và đám mây 60

Trang 14

Hình 2 19 Phân tích dữ liệu theo xu hướng dịch vụ 63

Hình 3 1 Các nhà cung cấp dịch vụ điện toán đám mây 73

Hình 3 2 Bản đồ các khu vực Azure của Microsoft, trải rộng trên toàn cầu; sự gần gũi với một trung tâm dữ liệu rất quan trọng đối với khách hàng đám mây. 84

Hình 3 3 Nền tảng đám mây của Google cung cấp một loạt các công cụ và được coi là đặc biệt mạnh về phân tích dữ liệu 89

Hình 4 1 Các thông tin thông dụng trong log file của mạng lưới 92

Hình 4 2 Các thông tin có trong bản ghi chi tiết cuộc gọi 93

Hình 4 3 Tập dữ liệu mẫu của Wikipedia trên BigQuery 101

Hình 4 4 Quá trình tạo một bộ dữ liệu mới 103

Hình 4 5 Tạo một tập dữ liệu trong BigQuery 104

Hình 4 6 Tải tệp lên BigQuery Datwarhouse 104 Hình 4 7 Bảng truy vấn trên BigQuery Datwarhouse trên Bộ dữ liệu đã tạo 105

Trang 15

DANH MỤC CÁC BẢNG

Bảng 3 1 - Các tính năng và chi phí cho dịch vụ AWS phổ biến 76

Bảng 3 2- Các tính năng và chi phí của các dịch vụ phổ biến của Microsoft 81

Bảng 3 3- Các tính năng và chi phí của Dịch vụ đám mây phổ biến của Google 87

Bảng 4 1: Loại dữ liệu thu thập được bằng MobiTrack từ thiết bị cầm tay 95

Bảng 4 2: Nguồn dữ liệu tiềm năng cho các nhà khai thác mạng viễn thông 96

Trang 16

MỞ ĐẦU

1 Lý do chọn đề tài:

Trong những năm gần đây, với sự tiến bộ về công nghệ, khoa học kỹ thuật, nhu cầu trao đổi thông tin, dữ liệu của con người ngày càng cao và đa dạng Hoạt động thông tin hằng ngày trong tất cả các lĩnh vực kinh tế xã hội đang tạo ra một lượng dữ liệu khổng lồ, có tốc độ tăng trưởng nhanh chóng và vô cùng phức tạp

Có rất nhiều nguồn tạo ra dữ liệu ở rất nhiều các lĩnh vực: Các công ty lưu trữ thông tin của khách hàng, các hệ thống lưu trữ nhật ký trong quá trình hoạt động vận hành, các mạng cảm biến thu thập dữ liệu từ môi trường, dữ liệu từ người dùng chia sẻ lên các trang mạng xã hội…vv Lượng dữ liệu này đang tăng lên với tốc độ nhanh chóng, ngày càng vượt quá khả năng của các ứng dụng dữ liệu truyền thống, chúng ta gọi là “Big Data” hay “Dữ liệu lớn” Với những ưu điểm và tác động mạnh mẽ của Dữ liệu lớn và các ứng dụng liên quan, Dữ liệu lớn đang được xem như một yếu tố quyết định đến sự phát triển cũng như mang lại những lợi thế cạnh tranh của các tổ chức Trong lĩnh vực Viễn thông, Dữ liệu lớn ngày càng trở nên quan trọng và có giá trị Với sự gia tăng nhanh chóng của các thiết bị kết nối mạng và các ứng dụng nghĩa là sẽ có một lượng dữ liệu đang được thu thập nhiều hơn bao giờ hết Tất cả điều này đã dẫn đến một sự bùng nổ của dữ liệu đang tạo

ra những cơ hội mới cho kinh doanh và khoa học

Việc kết hợp giữa Dữ liệu lớn, điện toán đám mây và các thuật toán, kỹ thuật mới trong biểu thị thông tin làm cho hoạt động phân tích hội tụ – tiến hành phân tích trên dữ liệu từ nhiều nguồn khác nhau trở nên khả thi Những kỹ thuật mới hỗ trợ vận chuyển và quản lý dữ liệu này cũng cho phép phát triển phân tích như một dịch vụ (AaaS) dựa trên nền tảng đám mây Nhiều nền tảng Phân tích dữ liệu lớn đang áp dụng công nghệ điện toán đám mây cho phép các doanh nghiệp

Trang 17

lớn nhằm đưa đến những ứng dụng mới trong thực tiễn, đặc biệt phục vụ trong lĩnh vực Viễn thông tôi đã chọn đề tài: “Nghiên cứu ứng dụng điện toán đám mây

để phân tích Dữ liệu lớn trong mạng Thông tin di động

2 Tổng quan về tình hình nghiên cứu đề tài

Big data hay Dữ liệu lớn là một lượng dữ liệu có khối lượng cỡ exabytes (1018) và hơn nữa [1] Theo Wikipedia Dữ liệu lớn là tập hợp những bộ dữ liệu rất lớn, rất phức tạp, khó khăn trong việc xử lý với các công cụ quản lý dữ liệu và ứng dụng xử lý dữ liệu truyền thống Những thách thức bao gồm thu thập, lưu trữ, tìm kiếm, chia sẻ, chuyển đổi, phân tích và trực quan hóa [2] Theo Sam Madden từ học viện Massachusetts Institute of Technology (MIT) Dữ liệu lớn nghĩa là những

dữ liệu rất lớn, tăng rất nhanh và rất khó phân tích với các công cụ xử lý dữ liệu hiện có [3] Theo nghiên cứu của McKinsey Global Institude, Dữ liệu lớn (Big data) là một thuật ngữ chỉ những bộ dữ liệu có kích thước rất lớn mà kích cỡ của

nó nằm ngoài khả năng của những ứng dụng cơ sở dữ liệu truyền thống trong việc thu thập, lưu trữ, quản lý và phân tích [4]

Theo Gartnet [5] Dữ liệu lớn là một tập hợp dữ liệu có khối lượng rất lớn, tăng với tốc độ nhanh và đa dạng Yêu cầu cần có một mô hình xử lý tiến bộ và hiệu quả về chi phí để rút trích thông tin và hỗ trợ ra quyết định

Có rất nhiều định nghĩa về Dữ liệu lớn được đề cập trong các báo cáo khoa học của nhiều nhà nghiên cứu Và tựu chung lại, nội dung của các định nghĩa đều thể hiện rằng Dữ liệu lớn là một thuật ngữ chỉ những tập dữ liệu không lồ thu thập được từ rất nhiều các lĩnh vực Lượng dữ liệu này có khối lượng rất lớn, tăng trưởng nhanh và rất đa dạng mà việc phân tích, trích xuất thông tin khó khăn, nằm ngoài khả năng của các ứng dụng quản lý và xử lý dữ liệu truyền thống [6,7,8]

Để xử lý, phân tích lượng dữ liệu khổng lồ này nhanh chóng cần có hệ thống các công cụ riêng là :

Trang 18

+ Kiến trúc Apache Hadoop

+ Kiến Trúc Apache Spark

+ Công nghệ điện toán đám mây

Cuộc cách mạng công nghệ lần thứ tư hay còn gọi công nghệ 4.0 đang diễn

ra mạnh mẻ tại Việt Nam cũng như trên toàn cầu Công nghệ 4.0 tập trung chính vào các công nghệ chính như điện toán đám mây, Dữ liệu lớn, Internet của vạn vật, trí tuệ nhân tạo, mạng thực tế ảo …vv Trong đó, công nghệ điện toán đám mây là “ Nền tảng chính ”, là “ Cơ sở hạ tầng ” cung cấp, quản lý, lưu trữ, xử lý, phân phối, truyền dẩn khối lượng tài nguyên, dữ liệu khổng lồ cho các công nghệ 4.0 khác

Dịch vụ điện toán đám mây là các nguồn điện toán khổng lồ chứa các tài nguyên phần mềm, các dịch vụ, các ứng dụng…vv nằm trên các mấy chủ ảo (đám mây) trên Internet thay vì cài đặt trên các máy tính ở gia đình hay trong văn phòng

để mọi người kết nối và sử dụng mổi khi cần Khi sử dụng dịch vụ điện toán đám mây doanh nghiệp và người sử dụng không phải lo và mua cơ sở hạ tầng, công nghệ thông tin mà chỉ việc tập trung kinh doanh vào lĩnh vực của mình bởi đã có người khác lo cơ sở hạ tầng và công nghệ thông tin thay cho họ

Việc ứng dụng công nghệ điện toán đám mây để phân tích, xử lý, lưu trữ

Dữ liệu lớn đang rất được quan tâm và ưu chuộng hiện nay Khi Dữ liệu lớn và công nghệ đám mây hội tụ, đan xen, kết hợp sẻ tạo ra một lựa chọn tốt nhất cho phân tích một khối lượng dữ liệu khổng lồ, không đồng nhất mà doanh nghiệp không thể xử lý

Xu hướng ứng dụng điện toán đám mây vào phân tích Dữ liệu lớn sẻ mang lại rất nhiều lợi ích như giảm chi phí cho doanh nghiệp; tốc độ xử lý và đưa ra quyết định chính xác; nguồn dữ liệu tạo ra càng có giá trị; các sản phẩm và dịch

Trang 19

Đặc biệt là áp dụng các công cụ, các quy trình thông minh giám cho giám sát, bảo mật, bảo vệ dữ liệu khi được lưu trữ trên điện toán đám mây

- Có 3 nhà cung cấp đám mây điện toán hàng đầu cho các doanh nghiệp lựa chọn:

+ Dịch vụ web của Amazon (AWS)

+ Microsoft Azure

+ Nền tảng đám mây của Google (GCP)

Tất cả các nhà cung cấp dịch vụ điện toán đám mây lớn đều cho dùng thử miễn phí để khám phá các dịch vụ đám mây của họ trong khoảng thời gian cho phép với các tài nguyên hạn chế

Để chọn lựa dịch vụ điện toán đám mây của AWS, Microsoft Azure hay Nền tảng đám mây của Google cho phù hợp các doanh nghiệp nên cân nhắc dựa theo quy mô hoạt động của công ty, số lượng người dùng, ngân sách cho việc quản lý dữ liệu, cơ sở hạ tầng, công nghệ thông tin để lựa chọn nhà cung cấp điện toán đám mây phù hợp

Điện toán đám mây của AWS là lựa chon đúng đắn cho các doanh nghiệp lớn Microsoft Azure phù hợp, tiện lợi cho các doanh nghiệp đang sử dụng các phần mềm của Microsoft Nền tảng đám mây của Google đảm bảo chi phí, các dịch vụ phân tích Dữ liệu lớn, trí tuệ nhân tạo cho các doanh nghiệp nhỏ

Trong bài luận văn em có sử dụng Nền tảng đám mây của Google để phân tích Dữ liệu lớn, chạy Demo và cho kết quả Bằng các ứng dụng miễn phí tạo tài khoản trên Nền tảng đám mây của Google, đăng nhập vào Bảng điều khiển, tải xuống, tải lên một số dữ liệu có sẵn, truy vấn, chạy Demo để cho kết quả ứng dụng vào mảng thông tin di động

Trang 20

3 Mục đích và nhiệm vụ nghiên cứu

- Nghiên cứu ứng dụng điện toán đám mây để phân tích BigData nhằm khai thác, trích xuất thông tin có giá trị phục vụ ứng dụng trong lĩnh vực viễn thông

- Tìm hiểu vấn đề bảo mật trên điện toán đám mây khi lưu trữ Dữ liệu lớn Các mục tiêu cụ thể là:

+ Khám phá tiềm năng to lớn trong lĩnh vực phân tích Dữ liệu lớn, đặc biệt

là các ứng dụng trong ngành Viễn thông

+ Tìm hiểu công nghệ điện toán đám mây và ứng dụng trong Viễn thông + Phân tích mối quan hệ giữa điện toán đám mây và Dữ liệu lớn, nắm được chuỗi giá trị trong lĩnh vực phân tích Dữ liệu lớn

+ Ứng dụng công nghệ điện toán đám mây của Google để phân tích Dữ liệu lớn trong mạng thông tin di động

4 Đối tượng và phạm vi nghiên cứu

- Đối tượng nghiên cứu: Công nghệ điện toán đám mây và phân tích Dữ liệu

lớn

- Phạm vi nghiên cứu: Trong lĩnh vực Mạng thông tin di động tại Việt Nam

5 Phương pháp nghiên cứu

- Phân tích tài liệu, số liệu thu thập được về các vấn đề liên quan đến Dữ liệu lớn và ứng dụng Từ đó có cái nhìn tổng quan và đầy đủ, đánh giá được các

tiến bộ của công nghệ trong lĩnh vực xử lý Dữ liệu lớn

- Khảo sát số liệu và thông số của các tổ chức chuẩn hóa

- Xây dựng các mô hình và ứng dụng phân tích dữ liệu trên điện toán đám mây

Trang 21

CHƯƠNG I: TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY VÀ DỮ LIỆU LỚN 1.1 Điện toán đám mây

Điện toán đám mây đã và đang châm ngòi một cuộc cách mạng trong cách cung cấp thông tin và dịch vụ của các tổ chức Điện toán đám mây là một giải pháp toàn diện cung cấp công nghệ thông tin như một dịch vụ Nó là giải pháp điện toán dựa trên mạng thông tin toàn cầu (Web) Khái niệm điện toán đám mây

có thể được diễn giải một cách đơn giản: các nguồn điện toán khổng lồ như phần mềm, dịch vụ và các ứng dụng sẽ nằm tại các máy chủ ảo (đám mây) trên mạng thông tin toàn cầu thay vì trong máy tính gia đình và văn phòng (trên mặt đất) để mọi người kết nối và sử dụng mỗi khi họ cần

Với các dịch vụ sẵn có trên mạng thông tin toàn cầu (Internet), doanh nghiệp không phải mua và duy trì hàng trăm, thậm chí hàng nghìn máy tính cũng như phần mềm Họ chỉ cần tập trung vào kinh doanh lĩnh vực riêng của mình bởi

đã có người khác lo cơ sở hạ tầng và công nghệ thông tin thay họ Google, theo lẽ

tự nhiên, nằm trong số những hãng ủng hộ điện toán máy chủ ảo tích cực nhất bởi hoạt động kinh doanh của họ dựa trên việc phân phối các máy chủ ảo (virtual server) Đa số người dùng mạng thông tin toàn cầu (Internet) đã tiếp cận những dịch vụ đám mây phổ thông như e-mail, album ảnh và bản đồ số Ở đó cung cấp tài nguyên chia sẻ giống như dòng điện được phân phối trên lưới điện Các máy tính trong đám mây được cấu hình để làm việc cùng nhau và các ứng dụng khác nhau sử dụng sức mạnh điện toán tập hợp, cứ như thể là chúng đang chạy trên một

hệ thống duy nhất

Linh hoạt của điện toán đám mây là một chức năng phân phát tài nguyên linh hoạt theo yêu cầu Điều này tạo điều kiện thuận lợi cho việc sử dụng các tài nguyên tích lũy của hệ thống, phủ nhận sự cần thiết phải chỉ định phần cứng cụ thể cho một nhiệm vụ Trước khi có điện toán đám mây, các trang thông tin toàn cầu và các ứng dụng dựa trên máy chủ đã được thi hành trên một hệ thống cụ thể

Trang 22

Với sự ra đời của điện toán đám mây, các tài nguyên được sử dụng như một máy tính gộp ảo Cấu hình hợp nhất này cung cấp một môi trường mà ở đó các ứng dụng thực hiện một cách độc lập mà không quan tâm đến bất kỳ cấu hình cụ thể nào

Điện toán đám mây có các đặc tính như sau:

 Sử dụng các tài nguyên tính toán động (Dynamic computing resources): Các tài nguyên được cấp phát cho doanh nghiệp đúng như những gì doanh nghiệp muốn một cách tức thời Thay vì việc doanh nghiệp phải tính toán xem có nên

mở rộng hay không, phải đầu tư bao nhiêu máy chủ thì nay doanh nghiệp chỉ cần yêu cầu "Hey, đám mây, chúng tôi cần thêm tài nguyên tương đương với 1 CPU 3.0 GHz, 128GB RAM…" và đám mây sẽ tự tìm kiếm tài nguyên rỗi để cung cấp cho bạn

 Giảm chi phí: Doanh nghiệp sẽ có khả năng cắt giảm chi phí để mua bán, cài đặt và bảo trì tài nguyên Rõ ràng thay vì việc phải cử một chuyên gia đi mua máy chủ, cài đặt máy chủ, bảo trì máy chủ thì nay bạn chẳng cần phải làm gì ngoài việc xác định chính xác tài nguyên mình cần và yêu cầu

 Giảm độ phức tạp trong cơ cấu của doanh nghiệp: doanh nghiệp sản xuất hàng hóa mà lại phải có cả một chuyên gia IT để vận hành, bảo trì máy chủ thì quá tốn kém Nếu khoán ngoài được quá trình này thì doanh nghiệp sẽ chỉ tập trung vào việc sản xuất hàng hóa chuyên môn của mình và giảm bớt được độ phức tạp trong cơ cấu

 Tăng khả năng sử dụng tài nguyên tính toán: Một trong những câu hỏi đau đầu của việc đầu tư tài nguyên (ví dụ máy chủ) là bao lâu thì nó sẽ hết khấu hao, đầu tư như thế có lãi hay không, có bị lỗi thời về công nghệ hay không Khi sử dụng tài nguyên trên đám mây thì doanh nghiệp không còn phải quan tâm tới điều này nữa

Trang 23

1.2 Kiến trúc và đặc điểm của dịch vụ điện toán đám mây

1.2.1 Kiến trúc điện toán đám mây

Kiến trúc đám mây bao gồm năm thành phần riêng biệt phối hợp với nhau

để cung cấp các dịch vụ theo yêu cầu

Hình 1 1 Kiến trúc điện toán đám mây

Hình 1.1 được lấy từ Kiến trúc tham chiếu điện toán đám mây của Viện

Tiêu chuẩn và Công nghệ (NIST) [4] Kiến trúc điện toán đám mây gồm năm

thành phần chinh: nhà cung cấp đám mây (Cloud Provider), người tiêu dùng đám

mây (cloud consumer), nhà vận chuyển đám mây (cloud carrier), nhà môi giới

đám mây (Cloud Broker) và kiểm toán viên đám mây (cloud auditor)

a) Nhà cung cấp đám mây

Trang 24

Nhà cung cấp đám mây là các tổ chức cung cấp dịch vụ đám mây Nhà cung cấp điện toán đám mây có quyền kiểm soát cơ sở hạ tầng công nghệ thông tin và quản lý các sự cố kỹ thuật nếu có kế hoạch hoặc không có kế hoạch Nhà cung cấp điện toán đám mây cũng đảm bảo đạt được các thỏa thuận cấp độ dịch vụ như đã được thỏa thuận

b) Người tiêu dùng đám mây

Người tiêu dùng trên đám mây là một người hoặc một tổ chức sử dụng (các) dịch vụ đám mây và có thỏa thuận với nhà cung cấp đám mây hoặc nhà môi giới đám mây

c) Nhà vận chuyển đám mây

Các nhà mạng đám mây là các công ty mạng và viễn thông, đảm bảo rằng các dịch vụ từ nhà cung cấp đám mây có sẵn cho người tiêu dùng đám mây Nhà vận chuyển dịch vụ đám mây phối hợp chặt chẽ với nhà cung cấp đám mây để đáp ứng các thỏa thuận như mong đợi

d) Môi giới đám mây

Các nhà môi giới đám mây là các công ty bên thứ ba, hợp tác chặt chẽ với

cả nhà cung cấp đám mây và người tiêu dùng trên đám mây Nói chung, đây là các công ty tư vấn và vì vậy họ có thể dễ dàng bán các giải pháp đám mây đa dạng cho khách hàng hiện tại cũng như cho khách hàng mới

e) Kiểm toán viên đám mây

Kiểm toán viên đám mây là các bên thứ ba chuyên đánh giá độc lập các dịch

vụ đám mây được cung cấp bởi các nhà cung cấp đám mây Kiểm toán viên đám mây có thể kiểm toán các lĩnh vực khác nhau như bảo mật, quyền riêng tư, hiệu suất, cấp phép, hoạt động và các lĩnh vực khác để làm nổi bật các lỗ hổng chống lại các hoạt động khác nhau và các tiêu chuẩn bảo mật dữ liệu

1.2.2 Đặc điểm của dịch vụ điện toán đám mây

Trang 25

Đặc tính kỹ thuật của điện toán đám mây cho phép khách hàng đơn phương thiết lập yêu cầu nguồn lực nhằm đáp ứng yêu cầu của hệ thống như: Thời gian sử dụng Server, dung lượng lưu trữ, cũng như là khả năng đáp ứng các tương tác lớn

của hệ thống ra bên ngoài

b) Truy cập diện rộng

Điện toán đám mây cung cấp các dịch vụ chạy trên môi trường mạng thông tin toàn cầu (Internet) do vậy khách hàng chỉ cần kết nối được với mạng thông tin toàn cầu (Internet) là có thể sử dụng được dịch vụ Các thiết bị truy xuất thông tin không yêu cầu cấu hình cao như : Mobile phone, Laptop và PDAs…

c) Dùng chung tài nguyên và độc lập vị trí

Tài nguyên của nhà cung cấp dịch vụ được dùng chung, phục vụ cho nhiều người dùng dựa trên mô hình “multi-tenant” Mô hình này cho phép tài nguyên phần cứng và tài nguyên ảo hóa sẽ được cấp pháp động dựa vào nhu cầu của người dùng Khi nhu cầu người dùng giảm xuống hoặc tăng nên thì tài nguyên sẽ được trưng dụng để phục vụ yêu cầu

Người sử dụng không cần quan tâm tới việc điều khiển hoặc không cần phải biết chính xác vị trí của các tài nguyên sẽ được cung cấp Ví dụ : Tài nguyên sẽ được cung cấp bao gồm: Tài nguyên lưu trữ, xử lý, bộ nhớ, băng thông mạng và máy ảo

d) Khả năng co giãn nhanh chóng

Khả năng này cho phép tự động mở rộng hoặc thu nhỏ hệ thống tùy theo nhu cầu của người sử dụng một cách nhanh chóng Khi nhu cầu tăng, hệ thống sẽ

tự động mở rộng bằng cách thêm tài nguyên vào Khi nhu cầu giảm, hệ thống sẽ

tự động giảm bớt tài nguyên

Khả năng co giãn giúp cho nhà cung cấp sử dụng tài nguyên hiệu quả, tận dụng triệt để tài nguyên dư thừa, phục vụ được nhiều khách hàng Đối với người

Trang 26

sử dụng dịch vụ, khả năng co giãn giúp họ giảm chi phí do họ chỉ trả phí cho những tài nguyên thực sự dùng

e) Chi trả theo thực dùng

Nhiều dịch vụ điện toán đám mây sử dụng mô hình điện toán theo nhu cầu,

mô hình tương tự với cách các tiện ích theo nhu cầu truyền thống như điện được tiêu thụ, trong khi một số khác tiếp thị dựa vào tiền đóng trước Điện toán đám mây cho phép giới hạn dung lượng lưu trữ, băng thông, tài nguyên máy tính và số lượng người dùng kích hoạt theo tháng

Ngoài năm đặc điểm chính đã mô tả ở trên, điện toán đám mây còn cung cấp một số các đặc điểm sau :

Độ tin cậy: Độ tin cậy cải thiện thông qua việc sử dụng các trang mạng có nhiều dư thừa, làm nó thích hợp cho tính liên tục trong kinh doanh và khôi phục thất bại Tuy nhiên, các dịch vụ của điện toán đám mây cũng có những lúc thiếu hụt và người quản lý kinh doanh, quản lý công nghệ thông tin phải làm cho nó giảm đi

Hiệu suất: Hiệu suất hoạt động được quan sát và các kiến trúc nhất quán, kết

nối lỏng lẽo được cấu trúc dùng trong các trang dịch vụ như giao tiếp hệ thống

Khả năng chịu đựng: Khả năng chịu đựng xảy ra thông qua việc tận dụng tài

nguyên đã được cải thiện, các hệ thống hiệu quả hơn Tuy nhiên, các máy tính và

cơ sở hạ tầng kết hợp là những thứ tiêu thụ năng lượng chủ yếu

1.3 Mô hình và hoạt động điện toán đám mây

Theo định nghĩa chuẩn của Viện tiêu chuẩn và công nghệ NIST các mô hình kiến trúc dịch vụ của điện toán đám mây được chia làm 3 mô hình: Cơ sở hạ tầng như một dịch vụ - Infrastructure as a service (IaaS), Nền tảng như một dich vụ - Platform as a Service (PaaS) and Phần mềm ứng dụng như một dịch vụ Software

as a Service (SaaS)

Trang 27

Hình 1 2 Mô hình 3 lớp dịch vụ điện toán đám mây

1.3.1 Cơ sở hạ tầng như một dịch vụ (IaaS)

Cơ sở hạ tầng như một dịch vụ IaaS là tầng dịch vụ thấp nhất trong mô hình dịch vụ của điện toán đám mây Nhưng nó cũng chính là nền tảng để xây dựng lên hai mô hình dịch vụ lớp cao hơn IaaS có khả năng cung cấp cho người dùng đến cuối các tài nguyên máy tính như: máy chủ ảo, hệ thống mạng, hệ thống lưu trữ,

và rất nhiều các chức năng khác nữa của tài nguyên máy tính, tại đó người dùng cuối có thể triển khai và chạy các phần mềm tùy ý, nó bao gồm cả hệ điều hành

và các ứng dụng Và người dùng cuối sẽ không cần phải quan tâm hay quản lý hạ tầng bên dưới của điện toán đám mây (là các máy chủ vật lý được xây dựng thành một khối tài nguyên khổng lồ), họ chỉ quản lý phần bên trên đó là hệ điều hành, lưu trữ những gì trên máy chủ ảo đó và triển khai ứng dụng của họ ra sao Đây là

mô hình dịch vụ cơ bản nhất và cũng phổ biến nhất với việc cung cấp hạ tầng tính toán: máy ảo, và các tài nguyên máy tính khác cho người dùng Các tài nguyên

Trang 28

này được cung cấp dưới dạng các dịch vụ trực tuyến và nó cho người dùng trải nghiệm không khác gì so với việc sử dụng các máy chủ vật lý truyền thống

IaaS cung cấp các tài nguyên máy tính tương tự như những tài nguyên máy tính vật lý thông qua công nghệ ảo hóa Các phần mềm quản lý ảo hóa (được gọi

là các hypervisor) như Xen, KVM, VMware thực hiện ảo hóa các tài nguyên vật

lý như RAM, CPU, Disk … thành các tài nguyên ảo, tạo ra các máy chủ ảo cung cấp cho người dùng Ảo hóa chính là nền tảng căn bản để tạo nên đám mây IaaS Nhưng chỉ riêng ảo hóa không thôi sẽ không thể tạo thành thứ được gọi là điện toán đám mây, còn rất nhiều các công nghệ khác nữa như: Linux namespace, Linux Cgroup, Linux Bridge, Openvswitch… cung cấp thêm các nguồn tài nguyên máy tính khác như: đĩa cài hệ điều hành, ổ đĩa gắn thêm vào máy chủ ảo, tường lửa, cân bằng tải, Virtual Local area network (VLAN)

Các tài nguyên máy tính ảo mà IaaS cung cấp đến người dùng cuối là

“không giới hạn” do nó được xây dựng từ một tập hợp tài nguyên vật lý vô cùng lớn được đặt tại các trung tâm dữ liệu khác nhau nhưng lại liên kết chặt chẽ với nhau nhờ các công nghệ mạng, chia sẻ tài nguyên với nhau tạo nên một khối tài nguyên khổng lồ cho người dùng Việc các máy chủ vật lý của hệ thống điện toán đám mây nằm phân tán tại các trung tâm dữ liệu khác nhau làm cho khối tài nguyên của nó có tính sẵn sàng rất cao, khả năng chịu lỗi là cực tốt và thời gian chết của các máy chủ ảo khi sử dụng là gần như bằng không

Ưu điểm phổ biến của giải pháp IaaS là tăng hoặc giảm nhanh cơ sở hạ tầng theo yêu cầu, rủi ro thấp hơn trong Hoàn vốn đầu tư (ROI), giảm chi phí nhân lực

và chi phí phần cứng, tự động mở rộng sức mạnh tính toán, v.v

1.3.2Nền tảng như một dịch vụ (Paas)

Nền tảng như một dịch vụ PaaS cung cấp một nền tảng để tạo các ứng dụng

và phần mềm mới của các nhà phát triển hoặc khách hàng qua mạng thông tin toàn

Trang 29

các thư viện, dịch vụ và công cụ được hỗ trợ bởi nhà cung cấp PaaS Người dùng tùy chỉnh có thể thuê các máy chủ ảo hoặc có thể mở rộng các dịch vụ đính kèm

và có thể dễ dàng mở rộng quy mô theo yêu cầu Đến lớp này của điện toán đám mây, người dùng sẽ không cần phải quản lý và điều khiển hạ tầng đám mây bao gồm: mạng, máy chủ ảo, hệ điều hành, lưu trữ mà chỉ cần kiểm soát việc triển khai các ứng dụng, phần mềm của mình lên nền tảng đã có sẵn

Các nhà cung cấp PaaS đưa đến cho những người lập trình ứng dụng môi trường để chạy ứng dụng đó Nhà cung cấp sẽ phát triển các bộ công cụ và các chuẩn cho phát triển các ứng dụng từ người dùng Trong mô hình dịch vụ PaaS, nhà cung cấp đám mây sẽ đưa đến một nền tảng đám mây, nó bao gồm hệ điều hành, môi trường để chạy các ngôn ngữ lập trình, cơ sở dữ liệu và cả các máy chủ Các nhà doanh nghiệp, nhà sử dụng ứng dụng có thể phát triển và chạy các giải pháp phần mềm của họ trên nền tảng đám mây đó mà không mất tiền và công sức cho việc mua và quản lý lớp phần cứng vật lý và lớp hệ điều hành

Lợi thế của mô hình PaaS là tính linh hoạt trong việc tăng giảm tài nguyên trong quá trình hoặt động và bảo mật là trách nhiệm chung trong PaaS giữa nhà cung cấp điện toán đám mây và người tiêu dùng trên điện toán đám mây.Một số nhà cung cấp PaaS lớn như: Microsoft Azure và Google App Engine, giúp cho tài nguyên máy tính và lưu trữ bên dưới được mở rộng tự động và không giới hạn để phù hợp với nhu cầu của các ứng dụng đó, người dùng sẽ không phải nâng cấp hệ thống một cách thủ công

1.3.3 Phần mềm như một dịch vụ (SaaS)

Phần mềm như một dịch vụ SaaS có khả năng cung cấp cho người dùng các ứng dụng của nhà cung cấp được xây dựng trên hạ tầng điện toán đám mây Các ứng dụng có thể được truy cập từ nhiều các thiết bị người dùng khác nhau từ các giao diện đơn giản như giao diện web, điện thoại, laptop…

Trang 30

Đây là lớp mô hình dịch vụ cao nhất trong điện toán đám mây Tại lớp này, người dùng sẽ không phải quản lý hầu như toàn bộ mọi thứ: từ mạng, máy chủ ảo,

hệ điều hành, lưu trữ, và cả môi trường để chạy ứng dụng Người dùng chỉ cần biết họ cần ứng dụng gì và sử dụng nó

Trong mô hình SaaS, người dùng có quyền truy cập vào các phần mềm và

cơ sở dữ liệu Nhà cung cấp đám mây quản lý hạ tầng và nền tảng để chạy các phần mềm đó SaaS đôi khi được nhắc đến như là mô hình “phần mềm theo nhu cầu” Các phần mềm ứng dụng như: Email, virtual desktop… đều có thể được cung cấp dưới dạng dịch vụ, được xây dựng và cài đặt trên hạ tầng và nền tảng của điện toán đám mây

Một lợi thế của mô hình SaaS là chi phí cấp phép thấp hơn do nguyên tắc thiết kế của nó là từ một đến nhiều, tức là cùng một ứng dụng được sử dụng bởi nhiều khách hàng nhưng vẫn duy trì sự cô lập của từng khách hàng Các ưu điểm khác như chi phí vận hành và bảo trì thấp hơn cũng được nhà cung cấp SaaS quan tâm vì cơ sở hạ tầng của nó được kiểm soát và quản lý bởi nhà cung cấp SaaS

Ví dụ về các loại dịch vụ SaaS này là Salesforce, Google Apps, Workday, Concur, Citrix GoToMeeting, Cisco WebEx, Microsoft Office 365, v.v

Như vậy, về cơ bản điện toán đám mây đã cung cấp các dịch vụ đầy đủ cho các nhu cầu của người dùng Điện toán đám mây đã thay đổi cơ bản cách con người sử dụng công nghệ số Biến việc sử dụng riêng lẻ thành các dịch vụ tập trung cho phép giảm chi phí giá thành và nâng cao sự tiện dụng, an toàn khi giải phóng người dùng khỏi việc đầu tư và bảo trì một hệ thống độc lập đầy đủ Chỉ với một thiết bị cơ bản với cấu hình không cao như: điện thoại, máy tính thông thường có kết nối mạng, người dùng hoàn toàn có thể tương tác và thực hiện các công việc ở mức độ phức tạp, đòi hỏi nhiều tài nguyên với chi phí hợp lí

1.4 Mô hình triển khai điển toán đám mây

Trang 31

Đám mây công cộng Là các dịch vụ được bên thứ 3 (người bán) cung cấp Chúng tồn tại ngoài tường lửa của công ty và được nhà cung cấp đám mây quản

lý Nó được xây dựng nhằm phục vụ cho mục đích sử dụng công cộng, người dùng

sẽ đăng ký với nhà cung cấp và trả phí sử dụng dựa theo chính sách giá của nhà cung cấp Đám mây công cộng là mô hình triển khai được sử dụng phổ biến nhất hiện nay

- Đối tượng sử dụng: Bao gồm người dùng bên ngoài internet Đối tượng quản lý là nhà cung cấp dịch vụ

+ Gặp khó khăn trong việc lưu trữ các văn bản, thông tin nội bộ

+ Mất kiểm soát về dữ liệu và vấn đề an toàn dữ liệu Trong mô hình này mọi

dữ liệu đều nằm trên dịch vụ điện toán đám mây, do nhà cung cấp dịch vụ điện toán đám mây đó bảo vệ và quản lý Chính điều này khiến cho khách hàng, nhất

là các công ty lớn cảm thấy không an toàn đối với những dữ liệu quan trọng của mình khi sử dụng dịch vụ điện toán đám mây

Trang 32

Hình 1 3 Mô hình triển khai điện toán đám mây

1.4.2 Đám mây doanh nghiệp (Private Cloud)

Đám mây doanh nghiệp - Private cloud là các dịch vụ điện toán đám mây được cung cấp trong các doanh nghiệp Những “đám mây” này tồn tại bên trong tường lửa của công ty và được các doanh nghiệp trực tiếp quản lý Đây là xu hướng tất yếu cho các doanh nghiệp nhằm tối ưu hóa hạ tầng công nghệ thông tin

- Đối tượng sử dụng: Nội bộ doanh nghiệp sử dụng và quản lý

- Ưu điểm: Chủ động sử dụng, nâng cấp, quản lý, giảm chi phí, bảo mật tốt,…

- Nhược điểm:

+ Khó khăn về công nghệ khi triển khai và chi phí xây dựng, duy trì hệ thống.+ Hạn chế sử dụng trong nội bộ doanh nghiệp, người dùng ở ngoài không thể

sử dụng

1.4.3 Đám mây lai (Hybrid Cloud)

Là sự kết hợp của đám mây công cộng - public cloud và đám mây doanh nghiệp (private cloud)

Trang 33

+ Doanh nghiệp có thể chọn để triển khai các ứng dụng trên đám mây công cộng, đám mây doanh nghiệp hay đám mây lai tùy theo nhu cầu cụ thể Mỗi mô hình đều có điểm mạnh và yếu của nó Các doanh nghiệp phải cân nhắc đối với các mô hình điện toán đám mây mà họ chọn Và họ có thể sử dụng nhiều mô hình

để giải quyết các vấn đề khác nhau Nhu cầu về một ứng dụng có tính tạm thời có thể triển khai trên đám mây công cộng bởi vì nó giúp tránh việc phải mua thêm thiết bị để giải quyết một nhu cầu tạm thời Tương tự, nhu cầu về một ứng dụng thường trú hoặc một ứng dụng có những yêu cầu cụ thể về chất lượng dịch vụ hay

vị trí của dữ liệu thì nên triển khai trên đám mây doanh nghiệp hoặc đám mây lai

1.4.4 Đám mây cộng đồng (Community Cloud)

Các đám mây cộng đồng là các đám mây được chia sẻ bởi một số tổ chức

và hỗ trợ một cộng đồng cụ thể có mối quan tâm chung (ví dụ: chung sứ mệnh, yêu cầu an ninh, chính sách ) Nó có thể được quản lý bởi các tổ chức hoặc một bên thứ ba

- Đối tượng sử dụng: Một đám mây cộng đồng có thể được thiết lập bởi một

số tổ chức có yêu cầu tương tự và tìm cách chia sẻ cơ sở hạ tầng để thực hiện một

số lợi ích của điện toán đám mây

- Ưu điểm: Có thể đáp ứng về sự riêng tư, an ninh hoặc tuân thủ các chính sách tốt hơn

- Nhược điểm: Tốn kém

1.5 Tổng quan Dữ liệu lớn

Dữ liệu lớn là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư Thuật ngữ này thường chỉ đơn giản đề cập đến việc việc sử dụng các phân tích dự báo, phân tích hành vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác

Trang 34

trích xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước của bộ dữ liệu "Vài nghi ngờ cho rằng số lượng của dữ liệu có sẵn hiện nay thực sự lớn, nhưng đó không phải là đặc trưng phù hợp nhất của hệ sinh thái dữ liệu mới này

Phân tích tập Dữ liệu lớn có thể tìm ra tương quan mới tới "xu hướng kinh doanh hiện tại, phòng bệnh tật, đặc thù người dùng, chống tội phạm và vân vân".[4] Các nhà khoa học, điều hành doanh nghiệp, y bác sĩ, quảng cáo và các chính phủ cũng thường xuyên gặp những khó khăn với các tập Dữ liệu lớn trong các lĩnh vực bao gồm tìm kiếm thông tin trên mạng xã hội, thông tin tài chính doanh nghiệp Các nhà khoa học gặp giới hạn trong công việc cần tính toán rất lớn, bao gồm khí tượng học, bộ gen, mạng thần kinh, các mô phỏng vật lý phức tạp, sinh vật học và nghiên cứu môi trường

Tập Dữ liệu lớn đang tăng rất nhanh một phần vì chúng được thu thập bởi

số lượng thiết bị internet vạn vật ngày càng rẻ và nhiều, ví dụ như các thiết bị di động, anten, nhật ký phần mềm, các thiết bị thu hình, thu thanh, đầu đọc RFID và mạng cảm biến không dây Khả năng lưu trữ thông tin của thế giới đã tăng bình quân gấp đôi sau mỗi 40 tháng từ những năm 1980; riêng năm 2012, mỗi ngày thế giới tạo ra 2.5 exabytes (2.5×1018) Một câu hỏi cho các tổ chức kinh doanh lớn là xác định ai nên sở hữu các sáng kiến Dữ liệu lớn có ảnh hưởng tới toàn bộ tổ chức

Hệ quản trị cơ sở dữ liệu quan hệ, máy bàn và các gói ảo hóa thường khó

xử lý Dữ liệu lớn Công việc khổng lồ này yêu cầu được xử lý bởi hàng chục, hàng trăm, hoặc thậm chí hàng nghìn máy chủ Người ta quan niệm Dữ liệu lớn khác nhau phụ thuộc vào khả năng của người dùng và công cụ họ dùng, và khả năng

mở rộng làm cho Dữ liệu lớn luôn thay đổi "Các tổ chức đối diện với hàng trăm gigabytes dữ liệu ở thời gian đầu gây ra sự cần thiết phải xem xét lại các tùy chọn quản trị dữ liệu Mặt khác, có thể tạo ra hàng chục hoặc hàng trăm terabytes trước khi kích thước dữ liệu trở thành một lý do quan trọng"

Trang 35

Hình 1 4 Sự tăng trưởng và lưu trữ thông tin dữ liệu lớn trên toàn cầu

Dữ liệu lớn thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả năng của các công cụ phần mềm thông thường để thu thập, hiển thị, quản lý và xử

lý dữ liệu trong một thời gian có thể chấp nhận được Kích thước dữ liệu lớn là một mục tiêu liên tục thay đổi Như năm 2012 thì phạm vi một vài tá terabytes tới nhiều petabytes dữ liệu Dữ liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp, và

có quy mô lớn

Trong báo cáo nghiên cứu năm 2001 và những diễn giả liên quan, META Group (bây giờ là Gartner) nhà phân tích Doug Laney định nghĩa những thách thức và cơ hội tăng dữ liệu như là 3 chiều, tăng giá trị dữ liệu, tốc độ vào ra của

dữ liệu (velocity), và khổ giới hạn của kiểu dữ liệu (variety) Gartner, và nhiều ngành công nghiệp tiếp tục sử dụng mô hình '3Vs' để mô tả Dữ liệu lớn Trong năm 2012, Gartner đã cập nhật định nghĩa như sau: "Dữ liệu lớn là khối lượng lớn, tốc độ cao và/hoặc loại hình thông tin rất đa dạng mà yêu cầu phương thức xử lý mới để cho phép tăng cường ra quyết định, khám phá bên trong và xử lý tối ưu"

Trang 36

Định nghĩa '3Vs' của Gartner vẫn được sử dụng rộng rãi, và trong phù hợp với định nghĩa đồng thuận.là: "Dữ liệu lớn tiêu biểu cho tập thông tin mà đặc điểm như khối lượng lớn (Volume), tốc độ cao(Velocity) và đa dạng (Variety) để yêu cầu phương thức phân tích và công nghệ riêng biệt để biến nó thành có giá trị" Thêm nữa, vài tổ chức đã thêm vào tính xác thực(Veracity) để mô tả về nó 3Vs

đã được mở rộng để bổ sung đặc tính của dữ liệu lớn

Dữ liệu lớn được mô tả bởi những đặc trưng sau:

Hình 1 5 Mô hình “5Vs” của Big Data – Nguồn Internet

Dung lượng (Volume)

Số lượng dữ liệu được tạo ra và lưu trữ Kích thước của dữ liệu xác định giá trị và tiềm năng - và liệu nó có thể thực sự được coi là dữ liệu lớn hay không

Ví dụ, chỉ riêng trên Facebook, hơn 10 tỷ tin nhắn được gửi mỗi ngày, nhấp

Trang 37

ngày Xử lý và lưu trữ quy mô dữ liệu như vậy là không dễ dàng với các hệ thống quản lý cơ sở dữ liệu quan hệ truyền thống Dữ liệu lớn là một câu trả lời cho ví

dụ như vậy bằng cách phân phối các tập dữ liệu theo chiều ngang tức là trong nhiều máy tính nối mạng song song và xử lý các bộ dữ liệu này thông qua các thuật toán mới nhất

Tính đa dạng (Variety)

Sự đa dạng đề cập đến các nguồn dữ liệu khác nhau Trước đó, nó thường chỉ lưu trữ dữ liệu có cấu trúc trong các bảng có hàng và cột Dữ liệu tài chính, chuỗi cung ứng và hệ thống ERP đều sử dụng cơ sở dữ liệu RDBMS Tuy nhiên, với công nghệ Dữ liệu lớn, có thể tải và xử lý các loại dữ liệu với nhiều cấu trúc khác nhau như hình ảnh, âm thanh, video … v.v

Tốc độ (Velocity)

Là tốc độ mà tại đó dữ liệu được phân tích bởi các công ty để cung cấp một trải nghiệm người dùng tốt hơn Với sự ra đời của các kỹ thuật, công cụ, ứng dụng lưu trữ, nguồn dữ liệu liên tục được bổ sung với tốc độ nhanh chóng Tổ chức McKinsey Global ước tính lượng dữ liệu đang tăng trưởng với tốc độ 40% hằng năm, và sẽ tăng 44 lần từ năm 2009 đến 2020 Chỉ riêng Facebook có khoảng 250

tỷ hình ảnh tính đến tháng 3 năm 2018 Người dùng Facebook tải lên hơn 900 triệu

ảnh mỗi ngày

Độ chính xác (Veracity)

Độ chính xác liên quan đến tính xác thực dữ liệu Với nhiều loại dữ liệu khác nhau, chất lượng và độ tin cậy của dữ liệu ít được kiểm soát hơn ảnh hưởng đến sự phân tích chính xác Tuy nhiên, với công nghệ Dữ liệu lớn, có thể làm việc với tất cả các loại dữ liệu và mang lại độ chính xác cao nhất

Ví dụ điển hình là các nhà máy và các hệ thống không thực-ảo có thể có

Trang 38

• Kết nối (cảm biến và mạng)

• Đám mây (tính toán và dữ liệu theo yêu cầu)

• Nội dung ảo (mẫu và bộ nhớ)

• Nội dung / ngữ cảnh (ý nghĩa và tương quan)

• Cộng đồng (chia sẻ và cộng tác)

• Tuỳ chỉnh (cá nhân hoá và giá trị)

Dữ liệu phải được xử lý bằng các công cụ tiên tiến (phân tích và thuật toán)

để cho ra các thông tin có ý nghĩa Ví dụ, để quản lý một nhà máy phải xem xét cả hai vấn đề hữu hình và vô hình với các thành phần khác nhau Các thuật toán tạo thông tin phải phát hiện và giải quyết các vấn đề không nhìn thấy được như sự xuống cấp của máy, mài mòn linh kiện… vv trong nhà máy

Giá trị của thông tin (Value)

Giá trị thông tin có tính chất quan trọng nhất của xu hướng đầu ra của công nghệ Dữ liệu lớn Ở đây doanh nghiệp phải hoạch định được những giá trị thông tin cần thiết, hữu ích của Dữ liệu lớn cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình Có thể nói việc đầu tiên là phải xác định được tính chất “giá trị thông tin - Value” thì mới nên bắt tay vào công nghệ Dữ liệu lớn

Vì vậy, tất cả bốn đặc trưng trước của Dữ liệu lớn là: Dung lượng, Vận tốc,

Độ đa dạng và Độ chính xác giúp lấy thông tin chính xác hoặc hiểu biết sâu sắc

để hỗ trợ cho việc ra quyết định là “Giá trị thông tin – Value”.Điều quan trọng là xác định “Giá trị” nào mà dự án sẽ đạt được với dự án phân tích Dữ liệu lớn

1.6 Nguồn tạo ra dữ liệu lớn và các dạng dữ liệu

Vào năm 2001, nhà phân tích Doug Laney của hãng META Group (bây giờ chính là công ty nghiên cứu Gartner) đã nói rằng những thách thức và cơ hội nằm

Trang 39

(volume), tăng về vận tốc (velocity) và tăng về chủng loại (variety) Giờ đây,

Gartner cùng với nhiều công ty và tổ chức khác trong lĩnh vực công nghệ thông

tin tiếp tục sử dụng mô hình “3V” này để định nghĩa nên Dữ liệu lớn Đến năm

2012, Gartner bổ sung thêm rằng Dữ liệu lớn ngoài ba tính chất trên thì còn phải

“cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào

sự vật/sự việc và tối ưu hóa các quy trình làm việc”

Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ở Châu Âu làm ví dụ cho Dữ liệu lớn Khi các thí nghiệm này được tiến hành, kết quả sẽ được ghi nhận bởi 150 triệu cảm biến với nhiệm vụ truyền tải dữ liệu khoảng 40 triệu lần mỗi giây Kết quả là nếu như LHC ghi nhận hết kết quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến 150 triệu petabyte mỗi năm, hoặc 500 exabyte mỗi ngày, cao hơn 200 lần so với tất cả các nguồn dữ liệu khác trên thế giới gộp loại

Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa các hạt vật chất diễn ra, nhưng sau khi chọn lọc lại từ khoảng 99,999% các luồng dữ liệu

đó, chỉ có tầm 100 vụ va chạm là được các nhà khoa học quan tâm Điều này có nghĩa là cơ quan chủ quản LHC phải tìm những biện pháp mới để quản lý và xử lí hết mớ dữ liệu khổng lồ này

Theo tài liệu của Intel vào tháng 9/2013, hiện nay thế giới đang tạo ra 1 petabyte dữ liệu trong mỗi 11 giây và nó tương đương với một đoạn video HD dài

13 năm Bản thân các công ty, doanh nghiệp cũng đang sở hữu Dữ liệu lớn của riêng mình, chẳng hạn như trang bán hàng trực tuyến eBay thì sử dụng hai trung tâm dữ liệu với dung lượng lên đến 40 petabyte để chứa những truy vấn, tìm kiếm,

đề xuất cho khách hàng cũng như thông tin về hàng hóa của mình

Nhà bán lẻ online Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng như những yêu cầu từ khoảng nửa triệu đối tác bán hàng Amazon sử dụng

Trang 40

một hệ thống Linux và hồi năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn

nhất thế giới với dung lượng là 7,8TB, 18,5TB và 24,7TB

Hình 1 6 Hoạt động của người dùng Wikipedia được mô hình hóa và với kích

thước hàng Terabyte, đây cũng là một dạng Dữ liệu lớn

Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh từ người dùng tải lên,

YouTube hay Google thì phải lưu lại hết các lượt truy vấn và video của người

dùng cùng nhiều loại thông tin khác có liên quan

Còn theo tập đoàn SAS, chúng ta có một vài số liệu thú vị về Dữ liệu lớn như

Ngày đăng: 11/08/2021, 16:02

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Jitendra Kumar Jaiswal, 15 Apr 2018. “Cloud Computing for Big Data Analytics Projects” Sách, tạp chí
Tiêu đề: Cloud Computing for Big Data Analytics Projects
[3] EMC Education Services. Data Science & Big Data Analytics. Indianapolis : John Wiley & Son Sách, tạp chí
Tiêu đề: Data Science & Big Data Analytics. Indianapolis
[4] Han, H., et al., Toward Scalable Systems for Big Data Analytics: A Technology Tutorial. Access, IEEE, 2014. 2: p. 652-687s, 2015. 978-1-118- 87613-8 Sách, tạp chí
Tiêu đề: Toward Scalable Systems for Big Data Analytics: A Technology Tutorial. Access
[9] John R. Mashey (25 April 1998). "Big Data ... and the Next Wave of InfraStress" (PDF). Slides from invited talk. Usenix. Retrieved 28 September 2016 Sách, tạp chí
Tiêu đề: Big Data ... and the Next Wave of InfraStress
[11] Madsen, L., Meggelen, J. V. & Bryant, R., n.d. Call Detail Records. In: Asterisk: The Definitive Guide. 3rd ed. s.l.:s.n Sách, tạp chí
Tiêu đề: Call Detail Records. In: "Asterisk: The Definitive Guide
[12] Malik, O., 2011. Internet of things will have 24 billion devices by 2020. GIGAOM, 13 October Sách, tạp chí
Tiêu đề: Internet of things will have 24 billion devices by 2020
[13] Karikoski, J., 2012. Handset-Based Data Collection Process and Participant Attitudes. International Journal of Handheld Computing Research (IJHCR), III(4), pp. 1-21 Sách, tạp chí
Tiêu đề: Handset-Based Data Collection Process and Participant Attitudes
[14] Acker, O., Blockus, A. & Pửtscher, F., 2013. Benefiting from Big Data: A New Approach for the Telecom Industry, s.l.: Booz & Company Sách, tạp chí
Tiêu đề: Benefiting from Big Data: A New Approach for the Telecom Industry
[16] IBM, 2010. Globe Telecom: Gaining marketing agility with smart promotions, s.l.: s.n Sách, tạp chí
Tiêu đề: Gaining marketing agility with smart promotions
[21] By Cynthia Harvey, Posted May 11, 2017. Amazon Web Services (AWS). [Online] Available at: https://www.datamation.com/cloud-computing/amazon-web-services.html Sách, tạp chí
Tiêu đề: Amazon Web Services
[22] By Cynthia Harvey, Posted May 23, 2017. Microsoft Azure. [Online] Availableat at https://www.datamation.com/cloud-computing/microsoft-azure.html Sách, tạp chí
Tiêu đề: Microsoft Azure
[5] Kaisler, S., Armour, F., Espinosa, J. A. & Money, W., 2013. Big Data: Issues and Challenges Moving Forward. Wailea, Maui, HI, s.n., pp. 995 - 1004 Khác
[6] Madden, S., (2012). From Databases to Big Data. Internet Computing, IEEE, 16, pp. 4 - 6 Khác
[7] McKinsey Global Institute. Big data: The next frontier for innovation, com- petition, and productivity. Paper, June 2011 Khác
[8]Beyer, M. A. & Laney, D., 2012. The Importance of 'Big Data': A Definition, s.l.: Gartner Khác
[10] Cloud computing for e-governance. White paper, IIIT-Hyderabad, January 2010. Available online (13 pages) Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w