Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng Customer Experience Mgmt, hệ thống

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP

HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP

HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

Chuyên ngành: Hệ thống thông tin

Mã số: 8480104.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Cán bộ hướng dẫn: PGS TS Phan Xuân Hiếu

Trang 3

LỜI CẢM ƠN

Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận lợi, đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để phục vụ cho quá trình học tập và công tác của tôi

Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS PHAN XUÂN HIẾU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc.Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống Thông tin K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập Cuối cùng, tôi xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động viên, giúp đỡ tôi trong quá trình hoàn thành luận văn

Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không tránh khỏi những thiếu sót Tôi xin trân trọng tiếp thu các ý kiến của các thầy, cô, bạn bè để luận văn được hoàn thiện

Trân trọng cám ơn

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu

và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đoàn Công nghiệp

- Công nghệ Cao Viettel và đối tácra

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà nội, ngày 12 tháng 11 năm 2019

Học viên

Nguyễn Chung Thành Hưng

Trang 5

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN i

MỤC LỤC i

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv

DANH MỤC CÁC BẢNG i

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ iii

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN 5

1.1 CÁC KHÁI NIỆM CƠ BẢN 5

1.1.1 Khái niệm chung về dữ liệu lớn 5

1.1.2 Các khái niệm lưu trữ dữ liệu lớn 6

1.1.3 Các khái niệm về xử lý dữ liệu lớn 10

1.1.4 Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu 13

1.2 Hệ thống phân tích dữ liệu lớn 17

1.2.1 Công nghệ lưu trữ dữ liệu trong BigData 17

1.2.1.1 Công nghệ lưu trữ trên đĩa cứng 17

1.2.1.2 Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases) 19

1.2.2 Xử lý dữ liệu trong BigData 22

1.2.2.1 Xử lý dữ liệu với mô hình Map-Reduce 22

1.2.2.2 Các tác vụ Map và Reduce 23

1.2.3 Kỹ thuật phân tích bigdata hiện nay 25

1.3 Các BÀI TOÁN PHÂN TÍCH DỰ BÁO 28

1.3.1 Bài toán phân tích dự báo 28

1.3.2 Các mô hình dự báo cơ bản 28

1.3.2.1 Mô hình dự báo dựa trên thuật toán cây quyết định: 28

1.3.2.2 Mô hình dự báo Gradient Boosting 30

1.3.3 Các kỹ thuật phân tích dự báo 31

1.3.3.1 Tạo biến đặc trưng 31

1.3.3.2 Kỹ thuật lựa chọn đặc trưng 32

1.3.3.3 Huấn luyện và xác thực trong các mô hình dự báo 34

1.3.3.4 Đánh giá mô hình dự báo 35

1.3.4 Giới thiệu công cụ phân tích Rapidminer 42

CHƯƠNG 2 44

Trang 6

PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN 44

2.1 CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG 44

2.1.1 Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay 44

2.1.1.1 Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) 45

2.1.1.2 Giám sát, quản lý và tối ưu mạng lưới (Network OAM) 47

2.1.1.3 Phân tích hoạt động (Operation Analytics) 48

2.1.1.4 Kiếm tiền từ dữ liệu (Data Monetization) 50

2.1.2 Hiện trạng của Viettel 50

2.1.2.1 Các nguồn dữ liệu lớn tại Viettel 50

2.1.2.2 Các hệ thống phân tích dữ liệu lớn của Viettel 51

2.2.1.1 Tầng Data Ingestion 53

2.2.1.2 Tầng Data Processing 53

2.2.1.3 Tầng Data Analysis Layer 54

2.2.1.4 Tầng Data Visualization 54

2.2.1.5 Tầng Data Repository 54

2.2.1.6 Tầng Data Govenance 55

2.2.2 Mô hình tổ chức thực tế hệ thống BigData tại Viettel 55

2.2.2.1 Tầng lưu trữ và xử lý dữ liệu 56

2.2.2.2 Tầng truy xuất dữ liệu 57

2.2.3 Các công nghệ nền tảng về hệ thống dữ liệu lớn 57

2.2.4 Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: 60

CHƯƠNG 3 62

THỰC NGHIỆM TÍCH HỢP HỆ THỐNG 62

DỰ BÁO THUÊ BAO RỜI MẠNG 62

3.1 NỘI DUNG THỰC NGHIỆM 62

3.1.1 Định nghĩa thuê bao rời mạng 62

3.1.2 Bài toán yêu cầu 62

3.1.3 Các bước thực nghiệm 63

3.2 TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM 63

3.2.1 Xây dựng hệ thống phân tích BigData thực nghiệm 63

3.2.1.1 Mô hình triển khai Logic 63

3.2.1.2 Mô hình triển khai vật lý và thông số hệ thống 64

3.2.1.3 Cài đặt, cấu hình các thành phần hệ thống thực nghiệm 65

Trang 7

3.2.1.5 Luồng xử lý và khai phá dữ liệu 68

3.2.2 Xây dựng mô hình dự báo TBRM 69

3.3 CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO 70

3.3.1 Khám phá dữ liệu và tạo các biến đặc trưng 70

3.3.1.1 Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) 70

3.3.1.2 Dữ liệu gọi đến của thuê bao (VOICE_IC) 71

3.3.1.3 Dữ liệu nhắn tin đi của thuê bao (SMS_OG) 71

3.3.1.4 Dữ liệu nhắn tin đến của thuê bao (SMS_IC) 72

3.3.1.5 Dữ liệu về sử dụng Data của thuê bao (GPRS) 72

3.3.1.6 Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY) 73 3.3.1.7 Dữ liệu về thông tin nạp tiền (TOPUP) 73

3.3.1.8 Dữ liệu số dư tài khoản (ACCOUNT2_DAY) 74

3.3.1.9 Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE) 74

3.3.1.10 Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS (VAS_CDR_DAY) 75

3.3.1.11 Dữ liệu home (HOME_ACC) 75

3.3.1.12 Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) 75

3.3.2 Lựa chọn đặc trưng và mô hình hóa 76

3.3.2.1 Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree 76

3.3.2.2 Huấn luyện và xác nhận mô hình rời mạng 79

3.3.3 Tối ưu mô hình dự báo 80

3.3.3.1 Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng 81

3.3.3.2 Tìm tỷ lệ tối ưu của xác nhận phân tách 81

3.3.3.3 Tìm cỡ mẫu tối ưu cho huấn luyện 82

3.3.3.4 Tối ưu mô hình bằng cách lựa chọn lại các đặc trưng 82

3.3.3.5 Xác định lại các tham số của mô hình tối ưu 82

3.3.3.6 Lựa chọn mô hình dự đoán tốt nhất 83

3.3.3.7 Chạy lại mô hình dự báo với thuật toán Gradien Booting 83

3.4 ĐÁNH GIÁ THU HOẠCH 84

3.4.1 Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng 84

3.4.2 Tri thức thu được sau thực nghiệm 84

KẾT LUẬN 86

TÀI LIỆU THAM KHẢO 87 PHỤ LỤC 1.1 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC -

Trang 8

PHỤ LỤC 1.2 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAU- PHÂN THEO 4 NHÓM HÀNH VI 93

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

STT Ký hiệu/chữ

thiết kế ACID)

(Nguyên tắc thiết kế BASE)

lý CAP)

khách hàng)

nhớ)

cho mỗi biến)

Trang 10

của thuê bao

hàng ngày của thuê bao

thuê bao

khoản của thuê bao

gói sử dụng theo chu kỳ của thuê bao

Các biến đặc trưng cho dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS của thuê bao

thuê bao

thuê bao, khách hàng

thuật toán Decision Tree

Total) Validation of the Testing Data Set (20% of

Trang 11

STT Chương Mục Bảng Tên bảng

K-mean

đặc trung

Booting

Trang 12

ba bộ xử lý khác nhau trong cùng một máy

cả khả năng xử lý và lưu trữ

mô tả đến phân tích đề xuất

Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nhanh hơn 80 lần so với thiết bị lưu trữ trên đĩa

từ IMDG

một truy vấn liên tục

từ IMDB

hình với một truy vấn liên tục

MapReduce

động

Analytics Ấn Độ)

Trang 13

STT Chương Mục Hình Tên hình vẽ

Đánh giá mô hình qua chỉ số AUC Trường hợp tốt nhất khi 2 đường cong không chồng lên nhau

Đánh giá mô hình qua chỉ số AUC Trường hợp khi 2 đường cong có chồng lên nhau

Đánh giá mô hình qua chỉ số AUC Trường hợp tệ nhất khi 2 đường cong hoàn toàn chồng lên nhau

Trường hợp khi AUC xấp xỉ 0

viễn thông

trong viễn thông

lớn

BigData tại Viettel

thực nghiệm

Rapidminer

định cho mỗi nguồn dữ liệu

Trang 14

STT Chương Mục Hình Tên hình vẽ

nút từ các cấp cao hơn

bỏ

Trang 15

MỞ ĐẦU

Trên thế giới, dữ liệu lớn (BigData) đã và đang là một trong những vấn đề trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần thứ tư BigData chính là cốt lõi để sử dụng, phát triển internet vạn vật (IoT) và trí tuệ nhân tạo (AI) [1] Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra một lượng lớn dữ liệu, dự kiến đến năm 2020, lượng dữ liệu sẽ tăng gấp 50 lần hiện nay [4] Thông qua thu thập, phân tích và xử lý lượng dữ liệu lớn này sẽ tạo

ra những tri thức mới, hỗ trợ việc đưa ra quyết định của các chủ thể trên thế giới (doanh nghiệp, chính phủ, người dân) [1, 4]

Trong ngành viễn thông và CNTT, dữ liệu lớn trở thành công cụ hữu hiệu cho các nhà cung cấp dịch vụ viễn thông trong kinh doanh cũng như công tác quản lý vận hành khai thác dịch vụ Các doanh nghiệp viễn thông ngày nay đã chủ động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân tích dữ liệu làm cơ

sở để giám sát, quản lý và ra các quyết định có tính chiến lược Lĩnh vực áp dụng

dự liệu lớn trong viễn thông rất phong phú liên quan đến các công nghệ phân tích

dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10] Dựa vào các công cụ này doanh nghiệp có thể nâng cao chất lượng dịch vụ cung cấp, đạt hiệu quả kinh doanh Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng (Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lưới (Network OAM), hệ thống phân tích hoạt động doanh nghiệp (Operation Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11]

Viettel là một doanh nghiệp hàng đầu Việt Nam luôn có chiến lược đổi mới, tiên phong trong công nghệ Việc ứng dụng một cách nhanh nhất, hiệu quả nhất các công nghệ mới nói chung và nhất là các công nghệ liên quan đến dữ liệu lớn nói riêng luôn là thách thức của đội ngũ kỹ thuật Viettel Một trong những ứng dụng phổ biến nhất hiện nay mà các nhà cung cấp dịch vụ viễn thông sử dụng đó

là hệ thống phân tích dự báo khách hàng rời mạng Đây là hệ thống quan trọng

mà đội ngũ kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đối tác cung cấp nền tảng dữ liệu lớn Cloudera

Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán, tôi xin giới thiệu đề tài nghiên cứu: "TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG

Trang 16

PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG" Với mong muốn hiểu được phương pháp phân tích dự báo và tự bản thân tích hợp được một hệ thống dữ liệu lớn, tôi đã đặt mục tiêu nghiên cứu các nội dung sau đây:

Tổng quan về vấn đề nghiên cứu:

 Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn Tìm hiểu về bài toán phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng

 Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo

thuê bao rời mạng tại Viettel

Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào

thực tiễn phục vụ công tác kinh doanh của Viettel

Đối tượng nghiên cứu:

 Dữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ trợ)

 Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel

Phạm vi nghiên cứu:

 Các khái niệm cơ bản về dữ liệu lớn

 Giải pháp mã nguồn mở cho BigData dựa trên Cloudera Flatform

 Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân tích dự báo cụ thể

Phương pháp nghiên cứu:

 Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với mục tiêu là hiểu được nền tảng cơ bản

 Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và triển khai được công nghệ

 Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuất kinh doanh của Viettel phục vụ cho sản xuất kinh doanh của doanh nghiệp với mục tiêu nắm vững các nguồn dữ liệu lớn đang có và triển khai việc xây dựng BigData

Trang 17

Phương pháp thực nghiệm: Xây dựng tích hợp một hệ thống dữ liệu lớn

dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân tích dự báo thuê bao rời mạng của Viettel

Với các mục tiêu xác định cụ thể như trên, kết quả của luận văn dự kiến sẽ cho ra đời một hệ thống phân tích dữ liệu lớn phục vụ cho công tác dự báo thuê bao rời mạng mới (thay thế cho hệ thống vBI cũ) Hệ thống phân tích mới này dựa trên các thuật toán dự báo tiên tiến kết hợp với công nghệ xử lý dữ liệu lớn sẽ cho ra kết quả phân tích nhanh hơn và có độ chính xác hơn Qua đó, công cụ này

sẽ giúp Viettel đưa ra quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách hàng của mình

Luận văn được cấu trúc như sau:

CHƯƠNG 1: TỔNG QUAN

Chương này trình bày các khái niệm cơ bản về dữ liệu lớn, công nghệ lưu trữ

và xử lý dữ liệu lớn Các bài toán phân tích dự báo, mô hình dự báo, giới thiệu các kỹ thuật phân tích dự báo và công cụ phân tích dữ liệu Rapidminer cũng là một trong những nội dung quan trọng của phần này

CHƯƠNG 2: TỔ CHỨC MỘT HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN.Đây là chương khá quan trọng được chia làm 02 phần Phần thứ nhất giới thiệu các ứng dụng phân tích dữ liệu lớn phổ biến hiện nay, hiện trạng các nguồn dữ liệu lớn cùng với các hệ thống ứng dụng phân tích dữ liệu lớn tại Viettel Phần còn lại sẽ chia sẻ phương pháp tổ chức hệ thống dữ liệu lớn tập trung, cách thiết

kế kiến trúc hạ tầng dữ liệu lớn hiện tại của Viettel

CHƯƠNG 3: THỰC NGHIỆM TÍCH HỢP HỆ THỐNG DỰ BÁO THUÊ BAO RỜI MẠNG

Chương 3 là chương chuyển thể các kiến thức nghiên cứu được thành nội dung ứng dụng thực tế Chương này đưa ra thực nghiệm tích hợp một hệ thống phân tích dự báo thuê bao rời mạng với một hệ thống xử lý dữ liệu lớn thành một công

cụ có áp dụng dự báo cụ thể Hệ thống này bước đầu cho ra các kết quả sơ bộ về đặc điểm thuê bao rời mạng với độ chính xác >80% sau khi tối ưu các bước dự báo

Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực

tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối

Trang 18

ưu mô hình liên tục Kết quả thực nghiệm của chương trình này chỉ mang tính chất tham khảo, chưa thể áp dụng trong thực tế

Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân Nội dung thực hiện chỉ mới là quan điểm và tư duy cá nhân, sẽ còn nhiều tồn tại

và thiết sót Do vậy, rất mong quý thầy cô, bạn học và nhất là hội đồng tốt nghiệp cho ý kiến đóng góp để luận văn được hoàn thiện, kết quả luận văn là công cụ dự báo được áp dụng hiệu quả trong thực tế

Trang 19

CHƯƠNG 1 TỔNG QUAN

1.1 CÁC KHÁI NIỆM CƠ BẢN

1.1.1 Khái niệm chung về dữ liệu lớn

Bộ dữ liệu (Data sets)

Nhiều tập dữ liệu hay nhiều nhóm dữ liệu có liên quan đến nhau được gọi là

bộ dữ liệu [5] Trong đó mỗi nhóm hoặc tập con dữ liệu đó có cùng thuộc tính giống nhau Một số ví dụ về bộ dữ liệu ở 03 định dạng khác nhau:

+ Dữ liệu Tweets được lưu giữ trong tập tin phẳng (flat file)

+ Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệp định dạng CSV Bộ sưu tập ảnh được lưu trong thư mục

+ Các thông tin quan sát về lịch sử thời tiết được lưu dưới dạng XML

Đặc điểm dữ liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)

Dữ liệu lớn BigData có 05 đặc điểm hay còn gọi là 5V: Volume-Khối lượng lớn; Velocity-Tốc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và Value-Mang lại giá trị Hầu hết các đặc điểm về dữ liệu lớn được Doug Laney xác định vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity, Variety) Tính xác thực (Veracity) được bổ sung để tính tỷ lệ signal-to-noise khi

so sánh dữ liệu phi cấu trúc với dữ liệu có cấu trúc Cuối cùng, Value- để xác định các kết quả phân tích dữ liệu lớn mang lại giá trị gì? [8]

Phân biệt các loại dữ liệu

Dữ liệu có cấu trúc (Structured Data): Dữ liệu có cấu trúc phù hợp với mô

hình dữ liệu được lưu trữ ở dạng bảng Chúng được sử dụng để mô tả mối quan

hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu quan hệ Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệp và

hệ thống thông tin như hệ thống ERP và CRM Ví dụ về loại dữ liệu này bao gồm

các giao dịch ngân hàng, hóa đơn và hồ sơ khách hàng

Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hợp với mô hình

dữ liệu hoặc lược đồ dữ liệu được gọi là dữ liệu phi cấu trúc Người ta ước tính rằng dữ liệu phi cấu trúc chiếm tới 80% dữ liệu trong bất kỳ doanh nghiệp nào Ngày nay, dữ liệu phi cấu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có cấu trúc Một số loại dữ liệu phi cấu trúc phổ biến như dữ liệu có dạng văn bản (text)

Trang 20

Dữ liệu phi cấu trúc không thể được xử lý hoặc truy vấn trực tiếp bằng cơ sở

dữ liệu quan hệ SQL Nếu muốn lưu trữ dữ liệu phi cấu trúc trong cơ sở dữ liệu quan hệ, thì phải được lưu trữ trong một bảng dưới dạng BLOB (Binary Large Object) Ngoài ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu phi cấu trúc

Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán cấu trúc thường là

dữ liệu có cấu trúc nhưng không đồng nhất Thay vào đó, dữ liệu bán cấu trúc có dạng phân cấp (hierarchical) hoặc đồ thị (graphbased) Loại dữ liệu này thường được lưu trữ trong các tệp có chứa văn bản Ví dụ như các tệp XML và JSON là các dạng phổ biến của dữ liệu bán cấu trúc Do tính chất văn bản của dữ liệu này

và sự phù hợp của nó với một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn

dữ liệu phi cấu trúc

Các nguồn phổ biến của dữ liệu bán cấu trúc bao gồm các tệp trao đổi dữ liệu điện tử (EDI), bảng tính, nguồn dữ liệu từ các bộ cảm biến Dữ liệu bán cấu trúc thường có các yêu cầu lưu trữ và xử lý trước đặc biệt, đặc biệt nếu định dạng cơ bản không dựa trên văn bản Một ví dụ về tiền xử lý dữ liệu bán cấu trúc sẽ là xác thực tệp XML để đảm bảo rằng nó tuân thủ theo lược đồ của nó

Siêu dữ liệu (Metadata): Siêu dữ liệu cung cấp thông tin về các đặc điểm và

cấu trúc của bộ dữ liệu Loại dữ liệu này chủ yếu được tạo bằng máy và có thể được thêm vào dữ liệu Việc theo dõi siêu dữ liệu rất quan trọng đối với việc xử

lý, lưu trữ và phân tích dữ liệu lớn vì nó cung cấp thông tin về phả hệ của dữ liệu

và nguồn gốc của nó trong quá trình xử lý Ví dụ về siêu dữ liệu bao gồm: Thẻ XML cung cấp ngày xác thực và ngày tạo tài liệu; Các thuộc tính cung cấp kích thước tệp và độ phân giải của ảnh kỹ thuật số; Các giải pháp dữ liệu lớn thường dựa trên siêu dữ liệu, đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc

[5]

1.1.2 Các khái niệm lưu trữ dữ liệu lớn

Các dữ liệu thu được từ các nguồn bên ngoài thường không ở định dạng hoặc cấu trúc có thể xử lý ngay được Để khắc phục được tình trạng này, việc sắp xếp lưu trữ dữ liệu là vô cùng cần thiết Xử lý sắp xếp lưu trữ dữ liệu bao gồm các bước: Lọc dữ liệu, làm sạch dữ liệu và chuẩn bị dữ liệu Do nhu cầu lưu trữ dữ liệu trong BigData, nên có nhiều công nghệ tiên tiến được tạo ra để hướng tới việc

Trang 21

Cụm dữ liệu (Clusters)

Trong điện toán, một cụm là một tập hợp các máy chủ hoặc các nút được liên kết chặt chẽ Các máy chủ này thường có cùng phần cứng và được kết nối với nhau thông qua một mạng để hoạt động như một đơn vị lưu trữ và xử lý dữ liệu Mỗi nút trong cụm có các tài nguyên riêng biệt, chẳng hạn như bộ nhớ, bộ xử lý

và ổ cứng Một cụm có thể thực thi một tác vụ bằng cách chia nó thành các phần nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm

Hệ thống lưu trữ file, hệ thống lưu trữ file phân tán

Hệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương pháp lưu trữ và sắp xếp dữ liệu trên thiết bị lưu trữ (ổ đĩa flash, DVD, ổ cứng…) File (tệp) là một đơn vị lưu trữ dữ liệu nhỏ nhất được quản lý bởi hệ thống file Về mặt logic, hệ thống file có cấu trúc như một cây thư mục Các hệ điều hành sử dụng

hệ thống file để lưu trữ và truy xuất dữ liệu cho các ứng dụng Mỗi một hệ điều hành có thể có một hoặc nhiều hệ thống file, ví dụ hệ thống file NTFS trên hệ điều hành Microsoft Windows và hệ thống file EXT trên Linux

Một hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống file có thể lưu trữ các file (tệp) có dung lượng lớn được phân tán đều trên các nút của cụm dữ liệu Nó cho phép các file được truy cập từ nhiều vị trí khác nhau Ví dụ,

hệ thống file phân tán của Google (GFS) và hệ thống file phân tán Hadoop (HDFS) [5]

Cơ sở dữ liệu không quan hệ (Non-SQL)

Cơ sở dữ liệu Non-SQL là CSDL không quan hệ, có khả năng mở rộng cao, tính chịu lỗi và được thiết kế đặc biệt cho dữ liệu không có cấu trúc hoặc bán cấu trúc CSDL Non-SQL này thường được cung cấp giao diện truy vấn API và có thể được gọi từ bên trong ứng dụng CSDL Non-SQL còn có khả năng hỗ trợ các truy vấn có cấu trúc (SQL)

CSDL Non-SQL có thể được phân thành bốn loại dựa trên cách chúng lưu trữ

dữ liệu, như trong Hình 1.1 – 1.4: Dạng key-value (khóa-giá trị); Dạng document (tài liệu); Dạng column-family; Dạng graph (đồ thị) [5]

Trang 22

Hình 1.1 Một ví dụ về lưu trữ dạng Key-value

Hình 1.2 Một ví dụ về lưu trữ dạng Document

Hình 1.3 Một ví dụ về lưu trữ dạng Column-family

Hình 1.4 Một ví dụ về lưu trữ dạng Graph

Phân đoạn dữ liệu (Sharding)

Phân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ngang, từ một tập

dữ liệu lớn thành một tập hợp các bộ dữ liệu nhỏ hơn, dễ quản lý hơn được gọi là phân đoạn Các phân đoạn được phân phối trên nhiều nút, trong đó mỗi một nút

là máy chủ Mỗi phân đoạn được lưu trữ trên một nút riêng biệt và mỗi nút chỉ chịu trách nhiệm cho dữ liệu được lưu trữ trên đó Mỗi phân đoạn có cùng một lược đồ (schema) và tất cả các phân đoạn đều đại diện cho một bộ dữ liệu hoàn chỉnh [5]

Việc xử lý phân đoạn dữ liệu thường trong suốt với các máy client, phân đoạn dữ liệu cho phép phân phối tải xử lý trên nhiều nút (node) để có khả năng mở rộng lưu

Trang 23

bằng cách thêm các tài nguyên (node) Khi đó mỗi một node chỉ chịu trách nhiệm cho một phần của toàn bộ tập dữ liệu, do vậy thời gian đọc/ghi được cải thiện rất nhiều Một lợi ích khác của phân đoạn dữ liệu là khả năng chịu lỗi Trong trường hợp một node bị lỗi, chỉ có dữ liệu trên node đó bị ảnh hưởng [5]

Sao lưu dữ liệu (Repilication)

Sao lưu dữ liệu là quá trình tạo ra nhiều bản sao cho một tập dữ liệu nằm ở trên nhiều node Sao lưu dữ liệu cung cấp khả năng mở rộng và tính khả dụng của dữ liệu do được lưu trên nhiều node khác nhau Khả năng chịu được lỗi cũng được cải thiện do có dự phòng dữ liệu – dữ liệu không bị mất đi khi một node riêng lẻ bị lỗi Hiện nay, có 02 mô hình sao lưu dữ liệu là sao lưu chủ – tớ (master-slave)

và sao lưu ngang hàng (peer-to-peer) [5]

Nguyên lý CAP (Consistency, Availability, and Partition tolerance)

Nguyên lý CAP [5] còn được

gọi là nguyên lý Brewer, thể hiện

với ba ràng buộc liên quan đến các

hệ thống cơ sở dữ liệu phân tán đó

là tính nhất quán (C-Consistency),

độ khả dụng (Availability) và

ngưỡng phân vùng (Partition

tolerance) Nguyên lý nói rằng một

hệ thống cơ sở dữ liệu phân tán,

chạy trên một cụm, chỉ có thể đáp

ứng hai trong ba thuộc tính sau: Hình 1.5 Sơ đồ Venn - định lý CAP + Tính nhất quán:Việc đọc từ bất kỳ nút nào đều có dữ liệu đầu ra như nhau + Tính khả dụng: Yêu cầu đọc/ghi sẽ luôn được xác nhận dưới hai dạng: thành công hay thất bại

+ Ngưỡng phân vùng: Hệ thống cơ sở dữ liệu có thể chịu đựng được mất điện liên lạc chia cụm thành nhiều silo và vẫn có thể phục vụ các yêu cầu đọc/ghi

Nguyên tắc thiết kế ACID

ACID là một nguyên tắc thiết kế cơ sở dữ liệu liên quan đến quản lý giao dịch

Nó là từ viết tắt của tính nguyên tử (Atomicity), tính nhất quán (Consistency), độ cách ly (Isolation) và độ bền (Durability)

Trang 24

ACID là một phương pháp quản lý các giao dịch đồng thời, kiểm soát thông qua khóa bản ghi (record locks) để đảm bảo tính nhất quán được duy trì ACID là phương pháp truyền thống để quản lý cơ sở dữ liệu giao dịch trong các hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS)

+ Tính nguyên tử đảm bảo rằng tất cả các giao dịch sẽ luôn luôn thành công hoặc thất bại hoàn toàn Nói cách khác, không có giao dịch một phần + Tính nhất quán đảm bảo rằng dữ liệu phải luôn luôn phù hợp với định dạng

để có thể được ghi được vào CSDL Một CSDL ở trạng thái nhất quán sẽ vẫn ở trạng thái nhất quán sau khi giao dịch thành công

+ Độ cách ly đảm bảo rằng kết quả của một giao dịch đang thực hiện không thể ảnh hưởng bởi một giao dịch khác cho đến khi giao dịch đó hoàn thành + Độ bền đảm bảo rằng kết quả của một giao dịch là vĩnh viễn Nói cách khác, một khi giao dịch đã được thực hiện, nó không thể được khôi phục dù cho

hệ thống có thể xảy ra lỗi [5]

1.1.3 Các khái niệm về xử lý dữ liệu lớn

Xử lý giao dịch trực tuyến (OLTP)

OLTP là một hệ thống phần mềm xử lý dữ liệu theo hướng giao dịch Thuật ngữ giao dịch trực tuyến dùng để chỉ các hành động xử lý theo hướng thời gian thực (real time) Dữ liệu được lưu giữ trong hệ thống OLTP được chuẩn hóa, cơ bản có cấu trúc và là đầu vào cho các xử lý phân tích

Các truy vấn được xử lý trong hệ thống OLTP bao gồm các thao tác chèn, xóa

và cập nhật đơn giản với thời gian phản hồi mức mili giây Ví dụ bao gồm hệ thống đặt vé, ngân hàng và hệ thống điểm bán hàng [5]

* Xử lý phân tích trực tuyến (OLAP)

Các hệ thống xử lý phân tích trực tuyến (OLAP) được sử dụng để xử lý các truy vấn phân tích dữ liệu OLAP là một phần không thể thiếu của BI, khai phá

dữ liệu và học máy OLAP có liên quan đến BigData ở chỗ chúng có thể đóng vai trò là nguồn dữ liệu đầu vào cũng như nguồn dữ liệu đầu ra của BigData Chúng được sử dụng trong phân tích chẩn đoán, phân tích dự đoán và phân tích đề xuất Các hệ thống OLAP thực hiện các truy vấn phức tạp, dài hạn đối với cơ sở dữ liệu

đa chiều có cấu trúc được tối ưu hóa để thực hiện các phân tích nâng cao

Hệ thống OLAP lưu trữ dữ liệu lịch sử dưới dạng không được chuẩn hóa để

hỗ trợ khả năng báo cáo nhanh OLAP cũng có khả năng lưu trữ các dữ liệu này

Trang 25

dưới dạng cấu trúc đa chiều để đáp ứng các truy vấn phức tạp dựa trên mối quan

hệ dữ liệu [5]

* Trích xuất dữ liệu (ETL)

Trích xuất dữ liệu (ETL - Extract Transform Load) là quá trình chuyển tải từ

hệ thống nguồn đến hệ thống đích Hệ thống nguồn ở đây có thể là CSDL, tệp hoặc ứng dụng Tương tự hệ thống đích có thể là CSDL hoặc các hệ thống lưu trữ khác ETL là các xử lý chính trong kho dữ liệu (Data warehouse) Trong BigData, ETL được sử dụng để chuyển đổi giữa các loại dữ liệu khác nhau Hình 1.6 cho thấy dữ liệu trích xuất được lấy từ các nguồn khác nhau, được chuyển đổi trước khi được đưa vào hệ thống đích [5]

Hình 1.6 Một quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển

đổi nó để tải vào một hệ thống đích duy nhất

Xử lý dữ liệu song song

Xử lý dữ liệu song song là việc chia một nhiệm vụ lớn hơn thành nhiều nhiệm vụ nhỏ hơn chạy đồng thời với mục tiêu là giảm thời gian thực hiện Mặc dù cơ chế xử lý

dữ liệu song song có thể đạt được thông qua nhiều máy được nối mạng, nhưng thông thường được áp dụng trong phạm vi một máy chủ có nhiều bộ xử lý hoặc lõi, mỗi một

bộ xử lý sẽ thực hiện một tác vụ khác nhau (Hình 1.7) [5]

Hình 1.7 Một tác vụ có thể được chia thành ba tác vụ phụ được thực thi song

song trên ba bộ xử lý khác nhau trong cùng một máy

Trang 26

Xử lý dữ liệu phân tán

Xử lý dữ liệu phân tán có liên quan chặt chẽ với xử lý dữ liệu song song trong đó áp dụng cùng một nguyên tắc "chia để trị" Tuy nhiên, xử lý dữ liệu phân tán luôn đạt được thông qua các máy riêng biệt được nối mạng với nhau thành một cụm Trong Hình 1.8, một tác vụ được chia thành ba nhiệm vụ sau đó được thực hiện trên ba máy khác nhau chia sẻ một công tắc vật lý [5]

Hình 1.8 Một ví dụ về xử lý dữ liệu phân tán

Xử lý dữ liệu Hadoop

Hadoop là nền tảng mã nguồn mở để lưu trữ dữ liệu quy mô lớn và xử lý dữ liệu tương thích với phần cứng Hadoop đã trở thành một nền tảng công nghiệp thực sự cho các giải pháp BigData Nó có thể được sử dụng như một công cụ trích xuất, chuyển đổi và lưu trữ dữ liệu ETL (Extract, Tranformation, Loading) Ngoài ra còn

là một công cụ phân tích để xử lý một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc Hadoop thiết lập cơ chế MapReduce để xử lý dữ liệu (Hình 1.9) [5]

Hình 1.9 Hadoop là một khung đa năng cung cấp cả khả năng xử lý

và lưu trữ

Trang 27

Việc xử lý dữ liệu trong BigData được phân biệt theo khối lượng và tính chất của dữ liệu được xử lý trong một khoảng thời gian nhất định Hiện có 02 hình thức xử lý dữ liệu trong BigData:

+ Xử lý dữ liệu theo lô (batch processing), còn được gọi là xử lý ngoại tuyến

(offline), là việc xử lý dữ liệu với số lượng lớn, có độ trễ xử lý cao Hình thức xử lý này thường liên quan đến một lượng lớn dữ liệu với việc đọc/ghi tuần tự hoặc chỉ đọc/chỉ ghi Các truy vấn có thể phức tạp và liên quan đến nhiều phép nối Các hệ thống chạy cơ chế OLAP như BI hay các công cụ phân tích được định hướng theo lô vì chúng là các tác vụ đòi hỏi nhiều khả năng đọc với khối lượng dữ liệu lớn

+ Xử lý giao dịch (transaction processing) còn được gọi là xử lý trực tuyến

(online) là xử lý tương tác dữ liệu có độ trễ thấp Hình thức xử lý dữ liệu này liên quan đến một lượng nhỏ dữ liệu với việc đọc và ghi ngẫu nhiên Khối lượng công việc giao dịch bao gồm đọc/ghi ngẫu nhiên có số phép nối (joins) ít hơn so với xử lý dữ liệu theo lô [5]

Xử lý dữ liệu theo cụm (Cluster)

Theo cùng cách mà các cụm cung cấp hỗ trợ cần thiết để tạo ra các giải pháp lưu trữ có thể mở rộng theo chiều ngang, các cụm cũng cung cấp cơ chế cho phép

xử lý dữ liệu phân tán với khả năng mở rộng tuyến tính Vì các cụm có khả năng

mở rộng cao, chúng cung cấp một môi trường lý tưởng để xử lý Dữ liệu lớn vì các

bộ dữ liệu lớn có thể được chia thành các bộ dữ liệu nhỏ hơn và sau đó được xử

lý song song theo cách phân tán Khi tận dụng một cụm, bộ dữ liệu BigData có thể là chế độ hàng loạt (batch) hoặc chế độ thời gian thực (real time)

Một lợi ích bổ sung của các cụm là chúng cung cấp dự phòng và khả năng chịu lỗi vốn có, vì chúng bao gồm các nút riêng biệt về mặt vật lý Dự phòng và khả năng chịu lỗi cho phép xử lý và phân tích khả năng phục hồi xảy ra nếu xảy ra lỗi mạng hoặc nút Do sự biến động của nhu cầu xử lý được đặt trong môi trường Dữ liệu lớn, tận dụng các dịch vụ cơ sở hạ tầng máy chủ đám mây hoặc môi trường phân tích sẵn sàng làm xương sống của cụm, có thể cảm nhận được do tính linh hoạt và mô hình tính toán dựa trên tiện ích của nó [5]

1.1.4 Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu

Phân tích dữ liệu (Data Analysis) là quá trình xử lý dữ liệu để tìm ra các sự kiện, các mối quan hệ, mẫu (patterns) dữ liệu, hiểu biết dữ liệu và xu thế Mục tiêu của phân tích dữ liệu là để hỗ trợ cho việc ra quyết định tốt hơn

Trang 28

Xử lý phân tích dữ liệu (Data Analytics) là một thuật ngữ rộng hơn khái niệm phân tích dữ liệu (Data Analysis) Quá trình này là việc quản lý vòng đời dữ liệu, bao gồm: Thu thập dữ liệu; Làm sạch dữ liệu; Tổ chức dữ liệu; Lưu trữ dữ liệu; Phân tích và quản lý dữ liệu Trong lĩnh vực BigData, phân tích dữ liệu còn cho phép phát triển các phương pháp dựa trên nền tảng và công nghệ phân tán có khả năng mở rộng cao Nó có khả năng phân tích một khối lượng dữ liệu lớn từ các nguồn khác nhau

Hình 1.10.Giá trị và độ phức tạp tăng từ phân tích mô tả đến đề xuất

Phân tích dữ liệu cho phép ra quyết định dựa trên dữ liệu thực tế có khoa học, nó không chỉ đơn thuần dựa vào kinh nghiệm và trực giác trong quá khứ Có thể phân thành 04 loại phân tích dữ liệu: Phân tích mô tả (descriptive analytics); Phân tích chẩn đoán (diagnostic analytics); Phân tích dự báo (predictive analytics);

Phân tích đề xuất (prescriptive analytics) [5]

Phân tích mô tả:

Các thống kê cho thấy rằng có khoảng 80% kết quả phân tích được dưới dạng phân tích mô tả Đây là dạng phân tích có giá trị thấp nhất, chỉ cần yêu cầu kỹ năng phân tích tương đối cơ bản Phân tích mô tả được thực hiện để trả lời các sự kiện đã xảy ra, các câu hỏi mẫu để phân tích mô tả có dạng như sau:

+ Doanh số bán hàng trong 12 tháng đã qua là bao nhiêu?

+ Hoa hồng hàng tháng kiếm được từ mỗi đại lý bán hàng?

Phân tích mô tả thường được thực hiện thông qua báo cáo hoặc dưới dạng bảng Dashboard (đồ thị hoặc biểu đồ) Các truy vấn được thực hiện từ kho dữ liệu của doanh nghiệp Ví dụ như hệ thống quản lý khách hàng CRM, hệ thống hoạch định nguồn lực ERP [5]

Phân tích chẩn đoán:

Trang 29

Phân tích chẩn đoán nhằm xác định nguyên nhân của hiện tượng xảy ra trong quá khứ bằng cách sử dụng các câu hỏi tập trung vào lý do xảy ra sự kiện Các dạng câu hỏi mẫu như:

+ Tại sao doanh thu Quý 2 thấp hơn doanh thu Quý 1

+ Tại sao có tỷ lệ gia tăng sự cố mạng trong ba tháng qua

Phân tích chẩn đoán cung cấp nhiều thông tin giá trị hơn phân tích mô tả, do vậy nó yêu cầu kỹ năng phân tích cao hơn Kết quả phân tích chẩn đoán thông qua các công cụ trực quan giúp người dùng xác định được xu thế Các truy vấn dữ liệu trong phân tích chẩn đoán cũng phức tạp hơn so với phân tích mô tả, nó được thực hiện trên dữ liệu đa chiều được lưu giữ trong các hệ thống phân tích [5]

Phân tích dự báo (dự đoán):

Phân tích dự đoán dùng để xác định kết quả của một sự kiện nào đó sẽ xảy ra trong tương lai Nói một cách chính xác hơn, phân tích dự đoán là mô hình dựa vào sự kiện đã xảy ra trong quá khứ với một điều kiện cụ thể để xác định sự kiện tương tự xảy ra trong tương lai Nếu các điều kiện cơ bản này thay đổi thì mô hình

dự báo phải được cập nhật Các câu hỏi mẫu cho phân tích dự báo có dạng

Phân tích đề xuất:

Phân tích đề xuất được xây dựng dựa trên kết quả của phân tích dự báo bằng cách liệt kê các hành động cần phải thực hiện Phân tích này không chỉ tập trung vào việc lựa chọn hành động nào là tốt nhất mà còn trả lời câu hỏi tại sao? Do đó, loại phân tích này thường được sử dụng để đạt được các lợi thế và giảm thiểu các rủi ro của doanh nghiệp Các dạng câu hỏi mẫu cho loại phân tích này như: + Trong số ba loại thuốc, loại thuốc nào mang lại kết quả tốt nhất?

Trang 30

+ Khi nào là thời điểm tốt nhất để giao dịch một cổ phiếu cụ thể?

Phân tích đề xuất cung cấp tri thức nhiều giá trị nhất trong các loại phân tích

kể trên, do vậy nó yêu cầu các kỹ năng phân tích tiên tiến kết hợp với các phần mềm, công cụ chuyên dụng Có thể nói phân tích đề xuất đã chuyển dịch từ việc giải thích nguyên nhân sang tư vấn hành động và nó có thể mô phỏng nhiều kịch bản xảy ra khác nhau

Loại phân tích này kết hợp dữ liệu nội bộ với dữ liệu bên ngoài Dữ liệu nội

bộ có thể bao gồm dữ liệu bán hàng hiện tại và lịch sử, thông tin khách hàng, dữ liệu sản phẩm và quy tắc kinh doanh Dữ liệu bên ngoài có thể bao gồm dữ liệu truyền thông xã hội, dự báo thời tiết và dữ liệu nhân khẩu học do chính phủ sản xuất Phân tích đề xuất liên quan đến việc sử dụng các quy tắc kinh doanh và một lượng lớn dữ liệu bên trong và bên ngoài để mô phỏng các kết quả và định hướng hành động tốt nhất [5]

Trang 31

1.2 HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

1.2.1 Công nghệ lưu trữ dữ liệu trong BigData

1.2.1.1 Công nghệ lưu trữ trên đĩa cứng

Lưu trữ trên đĩa thường sử dụng ổ đĩa cứng chi phí thấp để lưu trữ lâu dài Lưu trữ trên đĩa có thể được thực hiện thông qua hệ thống tệp phân tán hoặc cơ sở dữ liệu

Hệ thống lưu trữ tệp phân tán

Các hệ thống tệp phân tán hỗ trợ lưu trữ dữ liệu không có lược đồ (schema-less, cung cấp khả năng dự phòng và tính sẵn sàng cao bằng cách sao chép dữ liệu vào nhiều vị trí khác nhau Một thiết bị lưu trữ được triển khai với hệ thống tệp phân tán cung cấp khả năng truy cập nhanh, có khả năng lưu trữ các bộ dữ liệu lớn với

dữ liệu bán cấu trúc và không cấu trúc Đồng thời, nó cung cấp khả năng đọc/ghi nhanh, giải quyết đặc tính vận tốc của Dữ liệu lớn

Một hệ thống tệp phân tán không lý tưởng cho các bộ dữ liệu có số lượng lớn tệp nhỏ vì điều này tạo ra hoạt động tìm kiếm đĩa quá mức, làm chậm quá trình truy cập dữ liệu tổng thể Do những hạn chế này, hệ thống tệp phân tán hoạt động tốt nhất với ít tệp hơn nhưng lớn hơn được xử lý tuần tự Nhiều tệp nhỏ hơn thường được kết hợp thành một tệp lớn duy nhất để cho phép lưu trữ và xử lý tối ưu Điều này cho phép các hệ thống tệp phân tán có hiệu suất tăng khi dữ liệu phải được truy cập trong chế độ truyền phát mà không có đọc và ghi ngẫu nhiên

Thiết bị lưu trữ hệ thống tệp phân tán phù hợp với bộ dữ liệu lớn của dữ liệu thô Ngoài ra, đây là lựa chọn lưu trữ ít tốn kém để lưu trữ lượng lớn dữ liệu trong một khoảng thời gian dài cần duy trì trực tuyến Điều này là do có thể bổ sung các

bộ đĩa cứng vào cụm mà không cần giảm tải dữ liệu để lưu trữ dữ liệu ngoại tuyến Cần lưu ý rằng các hệ thống tệp phân tán không cung cấp khả năng tìm kiếm nội dung của các tệp dưới dạng tiêu chuẩn [5]

Hệ thống lưu trữ CSDL quan hệ RDBMS

Các hệ thống quản lý RDBMS (Relational DB management systems) rất tốt để

xử lý khối lượng công việc giao dịch liên quan đến một lượng nhỏ dữ liệu với các thuộc tính đọc/ghi ngẫu nhiên Các RDBMS tuân thủ nguyên tắc thiết kế ACID,

do vậy các hệ thống RDBMS (chịu giới hạn bởi một nút) không hỗ trợ tính dự phòng và khả năng chịu lỗi [5]

Trang 32

Để xử lý khối lượng lớn dữ liệu đến với tốc độ nhanh, cơ sở dữ liệu quan hệ thường cần phải mở rộng quy mô Tuy nhiên các hệ thống RDBMS chỉ có cơ chế phân chia theo chiều dọc, không chia tỷ lệ theo chiều ngang, đây là một nhược điểm lớn Điều này làm cho các RDBMS không lý tưởng để lưu trữ dữ liệu lâu dài được tích lũy theo thời gian Mặt khác, CSDL quan hệ thường yêu cầu dữ liệu tuân thủ lược đồ Do đó, các hệ thống RDBMS khi lưu trữ dữ liệu bán cấu trúc và không có cấu trúc phải thực hiện gián tiếp Điều này phát sinh độ trễ cao, độ trễ này làm cho CSDL quan hệ không lý tưởng để lưu trữ dữ liệu tốc độ cao trong khi cần một thiết bị lưu trữ CSDL có tính sẵn sàng cao với khả năng ghi dữ liệu nhanh

Do những nhược điểm đó, RDBMS truyền thống thường không hữu ích như thiết bị lưu trữ chính trong môi trường giải pháp Dữ liệu lớn [5]

Hệ thống lưu trữ CSDL Non-SQL

Sự xuất hiện của các hệ thống lưu trữ Non-SQL chủ yếu đáp ứng cho các tính chất đặc trưng của BigData (Volume, Velocity, Variety) Yêu cầu lưu trữ của khối lượng dữ liệu ngày càng tăng yêu cầu sử dụng cơ sở dữ liệu có khả năng mở rộng cao trong khi vẫn giảm chi phí cho doanh nghiệp để duy trì tính cạnh tranh Các

hệ thống lưu trữ Non-SQL đáp ứng yêu cầu này bằng cách cung cấp khả năng mở rộng quy mô trong khi sử dụng các máy chủ hàng hóa rẻ tiền

Dòng dữ liệu nhanh đòi hỏi cơ sở dữ liệu với khả năng ghi dữ liệu truy cập nhanh Các hệ thống lưu trữ Non-SQL cho phép ghi nhanh bằng cách sử dụng nguyên tắc lược đồ khi đọc thay vì nguyên tắc ghi trên lược đồ Có tính sẵn sàng cao, các hệ thống này có thể đảm bảo độ trễ khi xảy ra lỗi node/mạng Hệ thống lưu trữ cần xử lý các định dạng dữ liệu khác nhau bao gồm tài liệu, email, hình ảnh và video và dữ liệu không đầy đủ Hệ thống lưu trữ Non-SQLcó thể lưu trữ các dạng khác nhau dữ liệu bán cấu trúc và không cấu trúc Ngoài ra, hệ thống này còn hỗ trợ cho dữ liệu không có lược đồ

Căn cứ vào dạng dữ liệu lưu trữ, hệ thống lưu trữ dữ liệu Non-SQL được phân chia thành 4 loại: Hệ thống lưu trữ dữ liệu dạng Key-Value, Document, Column-family và Graph [5]

Hệ thống lưu trữ CSDL NewSQL

Các thiết bị lưu trữ Non-SQL có khả năng mở rộng cao, khả dụng, chịu lỗi và nhanh chóng cho các hoạt động đọc/ghi Tuy nhiên, chúng không cung cấp cùng

Trang 33

ACID Theo mô hình BASE, các thiết bị lưu trữ Non-SQL chỉ cung cấp tính nhất quán ở trạng thái xử ly cuối cùng thay vì tính nhất quán ngay lập tức Do đó, chúng không thích hợp để sử dụng khi thực hiện các hệ thống giao dịch quy mô lớn Các thiết bị lưu trữ NewQuery kết hợp các nguyên tắc thiết kế ACID của RDBMS với khả năng mở rộng và khả năng chịu lỗi được cung cấp bởi các thiết bị lưu trữ Non-SQL Ngoải ra, các cơ sở dữ liệu New SQL thường hỗ trợ cú pháp tuân thủ SQL cho quá trình thao tác dữ liệu và chúng thường sử dụng mô hình dữ liệu quan hệ logic để lưu trữ dữ liệu

Cơ sở dữ liệu New SQL có thể được sử dụng để phát triển các hệ thống OLTP với khối lượng giao dịch rất lớn, ví dụ như một hệ thống ngân hàng Chúng cũng

có thể được sử dụng cho các phân tích thời gian thực, ví dụ như phân tích hoạt động, vì một số triển khai tận dụng lưu trữ trong bộ nhớ So với hệ thống lưu trữ Non-SQL, thiết bị lưu trữ New SQL cung cấp quá trình chuyển đổi dễ dàng hơn từ RDBMS truyền thống sang cơ sở dữ liệu có khả năng mở rộng cao do hỗ trợ SQL Ví dụ về cơ sở dữ liệu NewSQL bao gồm VoltDB, NuoDB và InnoDB [5]

1.2.1.2 Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)

Một thiết bị lưu trữ trong bộ nhớ thường sử dụng RAM, bộ nhớ chính của máy tính, làm phương tiện lưu trữ để cung cấp truy cập dữ liệu nhanh Dung lượng ngày càng tăng và chi phí RAM giảm, cùng với tốc độ đọc/ghi ngày càng tăng của ổ cứng, đã giúp phát triển các giải pháp lưu trữ dữ liệu trong bộ nhớ Lưu trữ dữ liệu trong bộ nhớ giúp loại bỏ độ trễ của I/O của đĩa và thời gian truyền dữ liệu giữa bộ nhớ chính và ổ cứng Việc giảm tổng thể độ trễ đọc/ghi dữ liệu này giúp

xử lý dữ liệu nhanh hơn nhiều Dung lượng thiết bị lưu trữ in-memory có thể được tăng lên một cách ồ ạt bằng cách mở rộng theo chiều ngang của cụm đang lưu trữ thiết bị lưu trữ trong bộ nhớ

Bộ nhớ dựa trên cụm cho phép lưu trữ một lượng lớn dữ liệu, bao gồm cả bộ

dữ liệu BigData, có thể được truy cập nhanh hơn đáng kể khi so sánh với thiết bị lưu trữ trên đĩa Điều này làm giảm đáng kể thời gian thực hiện chung của phân tích Dữ liệu lớn, do đó cho phép phân tích Dữ liệu lớn theo thời gian thực

Hình 1.11 minh họa một so sánh thời gian truy cập giữa các thiết bị lưu trữ trong bộ nhớ và đĩa cứng Việc đọc tuần tự 1 MB dữ liệu từ thiết bị lưu trữ trong

bộ nhớ mất khoảng 0,25 ms, trong khi cùng một lượng dữ liệu từ thiết bị lưu trữ

Trang 34

trên đĩa mất khoảng 20 ms Điều này chứng tỏ rằng việc đọc dữ liệu từ bộ lưu trữ

bộ nhớ trong nhanh hơn khoảng 80 lần so với lưu trữ trên đĩa

Hình 1.11 Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nhanh hơn 80

lần so với thiết bị lưu trữ trên đĩa

Thiết bị lưu trữ trong bộ nhớ cho phép phân tích trong bộ nhớ, dùng để phân tích dữ liệu trong bộ nhớ Phân tích trong bộ nhớ cho phép phân tích hoạt động

và BI hoạt động thông qua thực hiện nhanh các truy vấn và thuật toán

Về cơ bản, lưu trữ trong bộ nhớ cho phép hiểu được luồng dữ liệu nhanh trong môi trường Dữ liệu lớn (đặc tính vận tốc) bằng cách cung cấp phương tiện lưu trữ tạo điều kiện cho việc tạo thông tin chi tiết theo thời gian thực Điều này hỗ trợ đưa ra quyết định nhanh chóng để giảm thiểu đe dọa hoặc tận dụng cơ hội

Thiết bị lưu trữ trong bộ nhớ Dữ liệu lớn được triển khai trên một cụm, cung cấp tính sẵn sàng và dự phòng cao Do đó, khả năng mở rộng theo chiều ngang có thể đạt được bằng cách thêm nhiều nút hoặc bộ nhớ Khi so sánh với thiết bị lưu trữ trên đĩa, thiết bị lưu trữ trong bộ nhớ đắt tiền vì chi phí bộ nhớ cao hơn so với thiết bị lưu trữ dựa trên đĩa

Mặc dù máy 64 bit có thể sử dụng 16 exabyte bộ nhớ, do các giới hạn vật lý của máy, chẳng hạn như số lượng khay nhớ, bộ nhớ được cài đặt ít hơn đáng kể

Để nhân rộng ra, nó không chỉ là việc bổ sung thêm bộ nhớ mà còn là sự bổ sung các nút được yêu cầu mười một giới hạn bộ nhớ cho mỗi nút Điều này làm tăng chi phí lưu trữ dữ liệu

Ngoài việc đắt tiền, các thiết bị lưu trữ trong bộ nhớ không cung cấp cùng mức

hỗ trợ cho việc lưu trữ dữ liệu lâu bền Yếu tố giá ảnh hưởng hơn nữa đến khả năng có thể đạt được của thiết bị trong bộ nhớ khi so sánh với thiết bị lưu trữ trên đĩa Do đó, chỉ có dữ liệu cập nhật và mới nhất có giá trị nhất được lưu trong bộ

Trang 35

Tùy thuộc vào cách nó được triển khai, một thiết bị lưu trữ trong bộ nhớ có thể

hỗ trợ lưu trữ không có lược đồ hoặc lưu trữ nhận thức lược đồ Hỗ trợ lưu trữ không có lược đồ được cung cấp thông qua lưu trữ dữ liệu dựa trên khóa-giá trị Các thiết bị lưu trữ trong bộ nhớ có thể được triển khai như: Công nghệ lưu trữ IMDG và công nghệ lưu trữ IMDB Mặc dù cả hai công nghệ này đều sử dụng

bộ nhớ làm phương tiện lưu trữ dữ liệu cơ bản, nhưng điều làm cho chúng khác biệt là cách lưu trữ dữ liệu trong bộ nhớ [5]

Công nghệ lưu trữ dữ liệu IMDG (In-Memory Data Grids) lưu trữ dữ liệu

trong bộ nhớ dưới dạng cặp giá trị khóa trên nhiều nút trong đó các khóa và giá trị có thể là bất kỳ đối tượng kinh doanh hoặc dữ liệu ứng dụng nào ở dạng tuần

tự Điều này hỗ trợ lưu trữ dữ liệu không có lược đồ thông qua lưu trữ dữ liệu bán cấu trúc hoặc không có cấu trúc Truy cập dữ liệu thường được cung cấp thông qua API như trong hình 1.12 [5]

Hình 1.12 Một ví dụ mô tả việc truy xuất dữ liệu từ IMDG

Công nghệ lưu trữ dữ liệu IMDB (In-Memory Databases) sử dụng công

nghệ cơ sở dữ liệu và tận dụng hiệu năng của RAM để khắc phục các vấn đề về

độ trễ thời gian chạy gây ra cho các thiết bị lưu trữ trên đĩa như trong hình 1.14:

Hình 1.14 Một ví dụ mô tả việc truy xuất dữ liệu từ IMDB

Trang 36

IMDB có thể để lưu trữ dữ liệu có cấu trúc (IMDB quan hệ) hoặc có thể tận dụng công nghệ Non-SQL (IMDB không quan hệ) để lưu trữ dữ liệu bán cấu trúc

và không cấu trúc

Không giống như IMDG, cung cấp quyền truy cập dữ liệu thông qua API, IMDB quan hệ sử dụng ngôn ngữ SQL nên quen thuộc hơn, hỗ trợ các nhà phân tích dữ liệu hoặc nhà khoa học dữ liệu không có kỹ năng lập trình nâng cao Các IMDB dựa trên Non-SQL thường cung cấp quyền truy cập dựa trên API, có thể đơn giản như các thao tác đặt, nhận và xóa Tùy thuộc vào việc triển khai cơ bản, một số IMDB mở rộng quy mô, trong khi một số khác mở rộng quy mô, để đạt được khả năng mở rộng

IMDB quan hệ thường có khả năng mở rộng ít hơn IMDG, vì IMDB quan hệ cần hỗ trợ các truy vấn và giao dịch phân tán trên toàn cụm Một số triển khai IMDB có thể được hưởng lợi từ việc nhân rộng, giúp giải quyết độ trễ xảy ra khi thực hiện các truy vấn và giao dịch trong môi trường mở rộng Ví dụ bao gồm Aerospike, MemQuery, Altibase HDB, eXtreme DB và Pivotal GemFire XD [5]

1.2.2 Xử lý dữ liệu trong BigData

1.2.2.1 Xử lý dữ liệu với mô hình Map-Reduce

MapReduce là một mô hình được sử dụng rộng rãi cho cơ chế xử lý theo lô

Nó có khả năng mở rộng cao và đáng tin cậy dựa trên nguyên tắc “chia để trị”, cung cấp khả năng chịu lỗi và dự phòng tích hợp Nó phân chia một vấn đề lớn thành một tập hợp các vấn đề nhỏ hơn có thể được giải quyết nhanh chóng MapReduce có nguồn gốc từ cả hai mô hình xử lý phân tán và song song Đây là một công cụ được sử dụng để xử lý các bộ dữ liệu lớn theo mô hình xử lý song song được triển khai trên các cụm phần cứng

MapReduce không yêu cầu dữ liệu đầu vào phù hợp với bất kỳ mô hình dữ liệu cụ thể nào Do đó, nó có thể được sử dụng để xử lý các bộ dữ liệu không có lược đồ MapReduce dựa trên tài liệu nghiên cứu của Google, được xuất bản vào đầu năm 2000

Công cụ xử lý MapReduce hoạt động khác so với mô hình xử lý dữ liệu truyền thống Trong mô hình truyền thống, xử lý dữ liệu yêu cầu di chuyển dữ liệu từ nút lưu trữ sang nút xử lý chạy thuật toán xử lý dữ liệu Cách tiếp cận này hoạt động tốt cho các bộ dữ liệu nhỏ hơn; Tuy nhiên, với các bộ dữ liệu lớn, việc di chuyển

Trang 37

MapReduce, thuật toán xử lý dữ liệu sẽ được chuyển đến các nút lưu trữ dữ liệu Thuật toán xử lý dữ liệu thực thi song song trên các nút này, do đó loại bỏ sự cần thiết phải di chuyển dữ liệu Điều này không chỉ tiết kiệm băng thông mạng mà còn giúp giảm đáng kể thời gian xử lý cho các bộ dữ liệu lớn, vì việc xử lý các khối dữ liệu nhỏ hơn song song nhanh hơn nhiều

MapReduce thường không phù hợp để xử lý Dữ liệu lớn theo thời gian thực MapReduce không thể xử lý dữ liệu theo kiểu tăng dần và chỉ có thể xử lý bộ dữ liệu hoàn chỉnh Do đó, nó yêu cầu tất cả dữ liệu đầu vào phải có sẵn toàn bộ trước khi thực hiện công việc xử lý dữ liệu Tuy nhiên, có một số giải pháp có thể cho phép sử dụng MapReduce trong các tình huống xử lý Dữ liệu lớn gần với thời gian thực [5]

1.2.2.2 Các tác vụ Map và Reduce

Một lần xử lý duy nhất của công cụ xử lý MapReduce được gọi là công việc MapReduce Mỗi công việc MapReduce bao gồm một nhiệm vụ Map và một nhiệm vụ Reduce và mỗi nhiệm vụ bao gồm nhiều giai đoạn Hình 1.16 cho thấy tác vụ map và reduce, cùng với các giai đoạn riêng lẻ của chúng [5]

Hình 1.16 Một minh họa về công việc MapReduce

* Các tác vụ Map:

- Tác vụ Map (hàm map): Giai đoạn đầu tiên của MapReduce được gọi là Map,

trong đó bộ dữ liệu được chia thành nhiều phần nhỏ hơn Mỗi phần được phân tách thành các bản ghi và được gán cho một cặp khóa-giá trị (key-value) Trong đó khóa thường là vị trí thứ tự của bản ghi và giá trị là bản ghi hiện tại

Trang 38

- Tác vụ Combine: Nói chung, đầu ra của hàm Map được xử lý trực tiếp bởi hàm

Reduce Tuy nhiên thực tế các tác vụ map và các tác vụ reduce chủ yếu chạy trên các nút khác nhau Điều này đòi hỏi có sự di chuyển dữ liệu giữa các tiến trình mapper và reducer Quá trình trao đổi dữ liệu này có thể tiêu thụ rất nhiều băng thông và trực tiếp góp phần gây ra trễ xử lý nhất là đối với các bộ dữ liệu lớn Vì lý do này, công cụ MapReduce cung cấp một hàm combine (tùy chọn)

để tóm tắt đầu ra của trình mapper trước khi nó được vào xử lý bởi bộ reducer

- Tác vụ Partition: Trong thực tế, nếu có nhiều hơn tác vụ reducer tham gia, tác

vụ phân vùng sẽ phân chia đầu ra từ bộ mapper hoặc bộ combiner (nếu có) thành các phân vùng theo reducer Trong đó, số lượng phân vùng sẽ bằng số lượng reducer Hàm partition là giai đoạn cuối cùng của tác vụ Map Nó trả về địa chỉ của reducer mà một phân vùng cụ thể sẽ được gửi đến xử lý [5]

* Các tác vụ Reduce:

- Tác vụ Shuffle and Sort (Xáo trộn và sắp xếp): Đây là giai đoạn đầu tiên của

tác vụ Reduce, đầu ra của tiến trình Partition thông qua mạng đến các node Reduce dựa trên cặp khóa-giá trị Tiếp theo, công cụ MapReduce tự động nhóm và sắp xếp các cặp khóa-giá trị theo các khóa để đầu ra chứa một danh sách được sắp xếp của các khóa đầu vào và các giá trị của chúng có cùng các khóa xuất hiện cùng nhau Cách thức mà các khóa được nhóm và sắp xếp có thể được tùy chỉnh Sự hợp nhất này tạo ra một cặp khóa-giá trị duy nhất cho nhóm, trong đó khóa là khóa nhóm và giá trị là danh sách của tất cả các giá trị nhóm [5]

- Tác vụ Reduce: Reduce là giai đoạn cuối cùng của tác vụ Reduce Tùy thuộc

vào logic do người dùng xác định, tác vụ Reducer sẽ tiếp tục tóm tắt đầu vào của nó hoặc sẽ phát ra đầu ra mà không thực hiện bất kỳ thay đổi nào Trong

cả hai trường hợp, đối với mỗi cặp khóa-giá trị bị Reduce, danh sách các giá trị được lưu trữ trong phần giá trị của cặp được xử lý và một cặp khóa-giá trị khác được tạo ra Số lượng Reducer có thể được tùy chỉnh Cũng có thể có một công việc MapReduce mà không cần Reducer, ví dụ như khi thực hiện lọc dữ liệu Lưu ý rằng chữ ký đầu ra (khóa-giá trị) của hàm Map phải khớp với chữ

ký đầu vào (khóa-giá trị) của hàm Reducer/ Combiner [5]

* Một ví dụ MapReduce đơn giản

Các bước sau đây được hiển thị trong Hình 1.17 [5]:

+ Bước 1: Đầu vào (sales.txt) được chia thành hai phần

Trang 39

+ Bước 2: Hai tác vụ ánh xạ chạy trên hai nút khác nhau, Nút A và Nút B,

trích xuất sản phẩm và số lượng từ các bản ghi phân tách tương ứng Đầu

ra từ mỗi chức năng bản đồ là một cặp khóa-giá trị trong đó sản phẩm là khóa trong khi số lượng là giá trị

+ Bước 3: Bộ kết hợp sau đó thực hiện tổng kết cục bộ số lượng sản phẩm + Bước 4: Vì chỉ có một tác vụ giảm, không có phân vùng được thực hiện + Bước 5: Đầu ra từ hai tác vụ ánh xạ sau đó được sao chép sang nút thứ ba,

Node C, chạy giai đoạn xáo trộn như một phần của tác vụ rút gọn

+ Bước 6: Giai đoạn sắp xếp sau đó nhóm các số lượng giống nhau của cùng

một sản phẩm thành một danh sách

+ Bước 7: Giống như bộ kết hợp, hàm giảm sau đó tổng hợp số lượng của

từng sản phẩm duy nhất để tạo đầu ra

Hình 1.17 Một ví dụ về MapReduce đang hoạt động

1.2.3 Kỹ thuật phân tích bigdata hiện nay

Phân tích định lượng (Quantiative)

Phân tích định lượng là một kỹ thuật phân tích dữ liệu tập trung vào việc định lượng các mẫu và mối tương quan được tìm thấy trong dữ liệu Dựa trên thực tiễn thống kê, kỹ thuật này liên quan đến việc phân tích một số lượng lớn các quan sát từ bộ dữ liệu Vì kích thước mẫu lớn, kết quả có thể được áp dụng một cách tổng quát cho toàn bộ tập dữ liệu Kết quả phân tích định lượng là số liệu tuyệt đối và

do đó có thể được sử dụng để so sánh Ví dụ, một phân tích định lượng về doanh

số bán kem có thể phát hiện ra rằng nhiệt độ tăng 5 độ làm tăng doanh số bán kem

Trang 40

Phân tích định tính (Quanliative)

Phân tích định tính là một kỹ thuật phân tích dữ liệu tập trung vào việc mô tả bằng từ ngữ các phẩm chất dữ liệu khác nhau So với phân tích dữ liệu định lượng, phân tích định tính có mẫu phân tích nhỏ hơn nhưng có chiều sâu hơn Các kết quả phân tích này không thể được khái quát cho toàn bộ tập dữ liệu do kích thước mẫu nhỏ Chúng cũng không thể được đo bằng số hoặc được sử dụng để so sánh

số Ví dụ, một phân tích về doanh số bán kem có thể tiết lộ rằng số liệu bán hàng của tháng 5 không cao như tháng 6 Các kết quả phân tích chỉ nói rằng các số liệu

"không cao bằng" và không cung cấp sự khác biệt về con số [5]

Khai thác dữ liệu (Data mining)

Khai thác dữ liệu còn được gọi là khai phá dữ liệu, là một hình thức phân tích

dữ liệu chuyên biệt nhắm vào các bộ dữ liệu lớn Liên quan đến phân tích dữ liệu lớn, khai thác dữ liệu đề cập đến các kỹ thuật tự động, dựa trên phần mềm, sàng lọc qua các bộ dữ liệu lớn để xác định các mẫu và xu hướng Cụ thể, nó liên quan đến việc trích xuất các mẫu ẩn hoặc chưa biết trong dữ liệu với mục đích xác định các mẫu chưa biết trước đó Khai thác dữ liệu là cơ sở cho các phân tích dự đoán

và kinh doanh thông minh (BI) [5]

Phân tích thống kê (Statistical Analysis)

Phân tích dữ liệu thống kê sử dụng các phương pháp thống kê dựa trên các công thức toán học như một phương tiện để phân tích dữ liệu Phân tích thống kê thường là định lượng, nhưng cũng có thể là định tính Loại phân tích này thường được sử dụng để mô tả các bộ dữ liệu thông qua tóm tắt, chẳng hạn như cung cấp giá trị trung bình, phương sai hoặc phương thức thống kê liên quan đến tập dữ liệu Nó cũng có thể được sử dụng để suy ra các mẫu và mối quan hệ trong tập dữ

liệu, chẳng hạn như hồi quy và tương quan Có ba loại phân tích thống kê là Thử

nghiệm A/B (A/B Testing), Tương quan (Correlation) và Hồi quy (Regression)[5]

Học máy (Machine Learning)

Con người rất giỏi trong việc phát hiện các mô hình và mối quan hệ trong dữ liệu Tuy nhiên, con người không thể xử lý một lượng lớn dữ liệu Mặt khác, máy móc rất giỏi trong việc xử lý một lượng lớn dữ liệu một cách nhanh chóng, nhưng chỉ khi chúng biết cách Nếu kiến thức của con người có thể được kết hợp với tốc

độ xử lý của máy móc, máy móc sẽ có thể xử lý một lượng lớn dữ liệu mà không

Định dạng
Số trang	114
Dung lượng	4,48 MB