1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

114 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 114
Dung lượng 4,48 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng Customer Experience Mgmt, hệ thống

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP

HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP

HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

Chuyên ngành: Hệ thống thông tin

Mã số: 8480104.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Cán bộ hướng dẫn: PGS TS Phan Xuân Hiếu

Trang 3

LỜI CẢM ƠN

Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận lợi, đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để phục vụ cho quá trình học tập và công tác của tôi

Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS PHAN XUÂN HIẾU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc.Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống Thông tin K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập Cuối cùng, tôi xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động viên, giúp đỡ tôi trong quá trình hoàn thành luận văn

Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không tránh khỏi những thiếu sót Tôi xin trân trọng tiếp thu các ý kiến của các thầy, cô, bạn bè để luận văn được hoàn thiện

Trân trọng cám ơn

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu

và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đoàn Công nghiệp

- Công nghệ Cao Viettel và đối tácra

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà nội, ngày 12 tháng 11 năm 2019

Học viên

Nguyễn Chung Thành Hưng

Trang 5

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN i

MỤC LỤC i

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv

DANH MỤC CÁC BẢNG i

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ iii

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN 5

1.1 CÁC KHÁI NIỆM CƠ BẢN 5

1.1.1 Khái niệm chung về dữ liệu lớn 5

1.1.2 Các khái niệm lưu trữ dữ liệu lớn 6

1.1.3 Các khái niệm về xử lý dữ liệu lớn 10

1.1.4 Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu 13

1.2 Hệ thống phân tích dữ liệu lớn 17

1.2.1 Công nghệ lưu trữ dữ liệu trong BigData 17

1.2.1.1 Công nghệ lưu trữ trên đĩa cứng 17

1.2.1.2 Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases) 19

1.2.2 Xử lý dữ liệu trong BigData 22

1.2.2.1 Xử lý dữ liệu với mô hình Map-Reduce 22

1.2.2.2 Các tác vụ Map và Reduce 23

1.2.3 Kỹ thuật phân tích bigdata hiện nay 25

1.3 Các BÀI TOÁN PHÂN TÍCH DỰ BÁO 28

1.3.1 Bài toán phân tích dự báo 28

1.3.2 Các mô hình dự báo cơ bản 28

1.3.2.1 Mô hình dự báo dựa trên thuật toán cây quyết định: 28

1.3.2.2 Mô hình dự báo Gradient Boosting 30

1.3.3 Các kỹ thuật phân tích dự báo 31

1.3.3.1 Tạo biến đặc trưng 31

1.3.3.2 Kỹ thuật lựa chọn đặc trưng 32

1.3.3.3 Huấn luyện và xác thực trong các mô hình dự báo 34

1.3.3.4 Đánh giá mô hình dự báo 35

1.3.4 Giới thiệu công cụ phân tích Rapidminer 42

CHƯƠNG 2 44

Trang 6

PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN 44

2.1 CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG 44

2.1.1 Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay 44

2.1.1.1 Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) 45

2.1.1.2 Giám sát, quản lý và tối ưu mạng lưới (Network OAM) 47

2.1.1.3 Phân tích hoạt động (Operation Analytics) 48

2.1.1.4 Kiếm tiền từ dữ liệu (Data Monetization) 50

2.1.2 Hiện trạng của Viettel 50

2.1.2.1 Các nguồn dữ liệu lớn tại Viettel 50

2.1.2.2 Các hệ thống phân tích dữ liệu lớn của Viettel 51

2.2.1.1 Tầng Data Ingestion 53

2.2.1.2 Tầng Data Processing 53

2.2.1.3 Tầng Data Analysis Layer 54

2.2.1.4 Tầng Data Visualization 54

2.2.1.5 Tầng Data Repository 54

2.2.1.6 Tầng Data Govenance 55

2.2.2 Mô hình tổ chức thực tế hệ thống BigData tại Viettel 55

2.2.2.1 Tầng lưu trữ và xử lý dữ liệu 56

2.2.2.2 Tầng truy xuất dữ liệu 57

2.2.3 Các công nghệ nền tảng về hệ thống dữ liệu lớn 57

2.2.4 Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: 60

CHƯƠNG 3 62

THỰC NGHIỆM TÍCH HỢP HỆ THỐNG 62

DỰ BÁO THUÊ BAO RỜI MẠNG 62

3.1 NỘI DUNG THỰC NGHIỆM 62

3.1.1 Định nghĩa thuê bao rời mạng 62

3.1.2 Bài toán yêu cầu 62

3.1.3 Các bước thực nghiệm 63

3.2 TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM 63

3.2.1 Xây dựng hệ thống phân tích BigData thực nghiệm 63

3.2.1.1 Mô hình triển khai Logic 63

3.2.1.2 Mô hình triển khai vật lý và thông số hệ thống 64

3.2.1.3 Cài đặt, cấu hình các thành phần hệ thống thực nghiệm 65

Trang 7

3.2.1.5 Luồng xử lý và khai phá dữ liệu 68

3.2.2 Xây dựng mô hình dự báo TBRM 69

3.3 CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO 70

3.3.1 Khám phá dữ liệu và tạo các biến đặc trưng 70

3.3.1.1 Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) 70

3.3.1.2 Dữ liệu gọi đến của thuê bao (VOICE_IC) 71

3.3.1.3 Dữ liệu nhắn tin đi của thuê bao (SMS_OG) 71

3.3.1.4 Dữ liệu nhắn tin đến của thuê bao (SMS_IC) 72

3.3.1.5 Dữ liệu về sử dụng Data của thuê bao (GPRS) 72

3.3.1.6 Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY) 73 3.3.1.7 Dữ liệu về thông tin nạp tiền (TOPUP) 73

3.3.1.8 Dữ liệu số dư tài khoản (ACCOUNT2_DAY) 74

3.3.1.9 Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE) 74

3.3.1.10 Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS (VAS_CDR_DAY) 75

3.3.1.11 Dữ liệu home (HOME_ACC) 75

3.3.1.12 Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) 75

3.3.2 Lựa chọn đặc trưng và mô hình hóa 76

3.3.2.1 Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree 76

3.3.2.2 Huấn luyện và xác nhận mô hình rời mạng 79

3.3.3 Tối ưu mô hình dự báo 80

3.3.3.1 Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng 81

3.3.3.2 Tìm tỷ lệ tối ưu của xác nhận phân tách 81

3.3.3.3 Tìm cỡ mẫu tối ưu cho huấn luyện 82

3.3.3.4 Tối ưu mô hình bằng cách lựa chọn lại các đặc trưng 82

3.3.3.5 Xác định lại các tham số của mô hình tối ưu 82

3.3.3.6 Lựa chọn mô hình dự đoán tốt nhất 83

3.3.3.7 Chạy lại mô hình dự báo với thuật toán Gradien Booting 83

3.4 ĐÁNH GIÁ THU HOẠCH 84

3.4.1 Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng 84

3.4.2 Tri thức thu được sau thực nghiệm 84

KẾT LUẬN 86

TÀI LIỆU THAM KHẢO 87 PHỤ LỤC 1.1 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC -

Trang 8

PHỤ LỤC 1.2 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAU- PHÂN THEO 4 NHÓM HÀNH VI 93

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

STT Ký hiệu/chữ

thiết kế ACID)

(Nguyên tắc thiết kế BASE)

lý CAP)

khách hàng)

nhớ)

cho mỗi biến)

Trang 10

của thuê bao

của thuê bao

của thuê bao

hàng ngày của thuê bao

thuê bao

khoản của thuê bao

gói sử dụng theo chu kỳ của thuê bao

Các biến đặc trưng cho dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS của thuê bao

thuê bao

thuê bao, khách hàng

thuật toán Decision Tree

Total) Validation of the Testing Data Set (20% of

Trang 11

STT Chương Mục Bảng Tên bảng

K-mean

đặc trung

Booting

Trang 12

ba bộ xử lý khác nhau trong cùng một máy

cả khả năng xử lý và lưu trữ

mô tả đến phân tích đề xuất

Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nhanh hơn 80 lần so với thiết bị lưu trữ trên đĩa

từ IMDG

một truy vấn liên tục

từ IMDB

hình với một truy vấn liên tục

MapReduce

động

Analytics Ấn Độ)

Trang 13

STT Chương Mục Hình Tên hình vẽ

Đánh giá mô hình qua chỉ số AUC Trường hợp tốt nhất khi 2 đường cong không chồng lên nhau

Đánh giá mô hình qua chỉ số AUC Trường hợp khi 2 đường cong có chồng lên nhau

Đánh giá mô hình qua chỉ số AUC Trường hợp tệ nhất khi 2 đường cong hoàn toàn chồng lên nhau

Trường hợp khi AUC xấp xỉ 0

viễn thông

trong viễn thông

lớn

BigData tại Viettel

thực nghiệm

Rapidminer

định cho mỗi nguồn dữ liệu

Trang 14

STT Chương Mục Hình Tên hình vẽ

nút từ các cấp cao hơn

bỏ

Trang 15

MỞ ĐẦU

Trên thế giới, dữ liệu lớn (BigData) đã và đang là một trong những vấn đề trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần thứ tư BigData chính là cốt lõi để sử dụng, phát triển internet vạn vật (IoT) và trí tuệ nhân tạo (AI) [1] Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra một lượng lớn dữ liệu, dự kiến đến năm 2020, lượng dữ liệu sẽ tăng gấp 50 lần hiện nay [4] Thông qua thu thập, phân tích và xử lý lượng dữ liệu lớn này sẽ tạo

ra những tri thức mới, hỗ trợ việc đưa ra quyết định của các chủ thể trên thế giới (doanh nghiệp, chính phủ, người dân) [1, 4]

Trong ngành viễn thông và CNTT, dữ liệu lớn trở thành công cụ hữu hiệu cho các nhà cung cấp dịch vụ viễn thông trong kinh doanh cũng như công tác quản lý vận hành khai thác dịch vụ Các doanh nghiệp viễn thông ngày nay đã chủ động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân tích dữ liệu làm cơ

sở để giám sát, quản lý và ra các quyết định có tính chiến lược Lĩnh vực áp dụng

dự liệu lớn trong viễn thông rất phong phú liên quan đến các công nghệ phân tích

dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10] Dựa vào các công cụ này doanh nghiệp có thể nâng cao chất lượng dịch vụ cung cấp, đạt hiệu quả kinh doanh Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng (Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lưới (Network OAM), hệ thống phân tích hoạt động doanh nghiệp (Operation Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11]

Viettel là một doanh nghiệp hàng đầu Việt Nam luôn có chiến lược đổi mới, tiên phong trong công nghệ Việc ứng dụng một cách nhanh nhất, hiệu quả nhất các công nghệ mới nói chung và nhất là các công nghệ liên quan đến dữ liệu lớn nói riêng luôn là thách thức của đội ngũ kỹ thuật Viettel Một trong những ứng dụng phổ biến nhất hiện nay mà các nhà cung cấp dịch vụ viễn thông sử dụng đó

là hệ thống phân tích dự báo khách hàng rời mạng Đây là hệ thống quan trọng

mà đội ngũ kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đối tác cung cấp nền tảng dữ liệu lớn Cloudera

Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán, tôi xin giới thiệu đề tài nghiên cứu: "TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG

Trang 16

PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG" Với mong muốn hiểu được phương pháp phân tích dự báo và tự bản thân tích hợp được một hệ thống dữ liệu lớn, tôi đã đặt mục tiêu nghiên cứu các nội dung sau đây:

Tổng quan về vấn đề nghiên cứu:

 Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn Tìm hiểu về bài toán phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng

 Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo

thuê bao rời mạng tại Viettel

Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào

thực tiễn phục vụ công tác kinh doanh của Viettel

Đối tượng nghiên cứu:

 Dữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ trợ)

 Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel

Phạm vi nghiên cứu:

 Các khái niệm cơ bản về dữ liệu lớn

 Giải pháp mã nguồn mở cho BigData dựa trên Cloudera Flatform

 Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân tích dự báo cụ thể

Phương pháp nghiên cứu:

 Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với mục tiêu là hiểu được nền tảng cơ bản

 Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và triển khai được công nghệ

 Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuất kinh doanh của Viettel phục vụ cho sản xuất kinh doanh của doanh nghiệp với mục tiêu nắm vững các nguồn dữ liệu lớn đang có và triển khai việc xây dựng BigData

Trang 17

Phương pháp thực nghiệm: Xây dựng tích hợp một hệ thống dữ liệu lớn

dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân tích dự báo thuê bao rời mạng của Viettel

Với các mục tiêu xác định cụ thể như trên, kết quả của luận văn dự kiến sẽ cho ra đời một hệ thống phân tích dữ liệu lớn phục vụ cho công tác dự báo thuê bao rời mạng mới (thay thế cho hệ thống vBI cũ) Hệ thống phân tích mới này dựa trên các thuật toán dự báo tiên tiến kết hợp với công nghệ xử lý dữ liệu lớn sẽ cho ra kết quả phân tích nhanh hơn và có độ chính xác hơn Qua đó, công cụ này

sẽ giúp Viettel đưa ra quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách hàng của mình

Luận văn được cấu trúc như sau:

CHƯƠNG 1: TỔNG QUAN

Chương này trình bày các khái niệm cơ bản về dữ liệu lớn, công nghệ lưu trữ

và xử lý dữ liệu lớn Các bài toán phân tích dự báo, mô hình dự báo, giới thiệu các kỹ thuật phân tích dự báo và công cụ phân tích dữ liệu Rapidminer cũng là một trong những nội dung quan trọng của phần này

CHƯƠNG 2: TỔ CHỨC MỘT HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN.Đây là chương khá quan trọng được chia làm 02 phần Phần thứ nhất giới thiệu các ứng dụng phân tích dữ liệu lớn phổ biến hiện nay, hiện trạng các nguồn dữ liệu lớn cùng với các hệ thống ứng dụng phân tích dữ liệu lớn tại Viettel Phần còn lại sẽ chia sẻ phương pháp tổ chức hệ thống dữ liệu lớn tập trung, cách thiết

kế kiến trúc hạ tầng dữ liệu lớn hiện tại của Viettel

CHƯƠNG 3: THỰC NGHIỆM TÍCH HỢP HỆ THỐNG DỰ BÁO THUÊ BAO RỜI MẠNG

Chương 3 là chương chuyển thể các kiến thức nghiên cứu được thành nội dung ứng dụng thực tế Chương này đưa ra thực nghiệm tích hợp một hệ thống phân tích dự báo thuê bao rời mạng với một hệ thống xử lý dữ liệu lớn thành một công

cụ có áp dụng dự báo cụ thể Hệ thống này bước đầu cho ra các kết quả sơ bộ về đặc điểm thuê bao rời mạng với độ chính xác >80% sau khi tối ưu các bước dự báo

Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực

tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối

Trang 18

ưu mô hình liên tục Kết quả thực nghiệm của chương trình này chỉ mang tính chất tham khảo, chưa thể áp dụng trong thực tế

Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân Nội dung thực hiện chỉ mới là quan điểm và tư duy cá nhân, sẽ còn nhiều tồn tại

và thiết sót Do vậy, rất mong quý thầy cô, bạn học và nhất là hội đồng tốt nghiệp cho ý kiến đóng góp để luận văn được hoàn thiện, kết quả luận văn là công cụ dự báo được áp dụng hiệu quả trong thực tế

Trang 19

CHƯƠNG 1 TỔNG QUAN

1.1 CÁC KHÁI NIỆM CƠ BẢN

1.1.1 Khái niệm chung về dữ liệu lớn

Bộ dữ liệu (Data sets)

Nhiều tập dữ liệu hay nhiều nhóm dữ liệu có liên quan đến nhau được gọi là

bộ dữ liệu [5] Trong đó mỗi nhóm hoặc tập con dữ liệu đó có cùng thuộc tính giống nhau Một số ví dụ về bộ dữ liệu ở 03 định dạng khác nhau:

+ Dữ liệu Tweets được lưu giữ trong tập tin phẳng (flat file)

+ Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệp định dạng CSV Bộ sưu tập ảnh được lưu trong thư mục

+ Các thông tin quan sát về lịch sử thời tiết được lưu dưới dạng XML

Đặc điểm dữ liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)

Dữ liệu lớn BigData có 05 đặc điểm hay còn gọi là 5V: Volume-Khối lượng lớn; Velocity-Tốc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và Value-Mang lại giá trị Hầu hết các đặc điểm về dữ liệu lớn được Doug Laney xác định vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity, Variety) Tính xác thực (Veracity) được bổ sung để tính tỷ lệ signal-to-noise khi

so sánh dữ liệu phi cấu trúc với dữ liệu có cấu trúc Cuối cùng, Value- để xác định các kết quả phân tích dữ liệu lớn mang lại giá trị gì? [8]

Phân biệt các loại dữ liệu

Dữ liệu có cấu trúc (Structured Data): Dữ liệu có cấu trúc phù hợp với mô

hình dữ liệu được lưu trữ ở dạng bảng Chúng được sử dụng để mô tả mối quan

hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu quan hệ Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệp và

hệ thống thông tin như hệ thống ERP và CRM Ví dụ về loại dữ liệu này bao gồm

các giao dịch ngân hàng, hóa đơn và hồ sơ khách hàng

Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hợp với mô hình

dữ liệu hoặc lược đồ dữ liệu được gọi là dữ liệu phi cấu trúc Người ta ước tính rằng dữ liệu phi cấu trúc chiếm tới 80% dữ liệu trong bất kỳ doanh nghiệp nào Ngày nay, dữ liệu phi cấu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có cấu trúc Một số loại dữ liệu phi cấu trúc phổ biến như dữ liệu có dạng văn bản (text)

Trang 20

Dữ liệu phi cấu trúc không thể được xử lý hoặc truy vấn trực tiếp bằng cơ sở

dữ liệu quan hệ SQL Nếu muốn lưu trữ dữ liệu phi cấu trúc trong cơ sở dữ liệu quan hệ, thì phải được lưu trữ trong một bảng dưới dạng BLOB (Binary Large Object) Ngoài ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu phi cấu trúc

Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán cấu trúc thường là

dữ liệu có cấu trúc nhưng không đồng nhất Thay vào đó, dữ liệu bán cấu trúc có dạng phân cấp (hierarchical) hoặc đồ thị (graphbased) Loại dữ liệu này thường được lưu trữ trong các tệp có chứa văn bản Ví dụ như các tệp XML và JSON là các dạng phổ biến của dữ liệu bán cấu trúc Do tính chất văn bản của dữ liệu này

và sự phù hợp của nó với một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn

dữ liệu phi cấu trúc

Các nguồn phổ biến của dữ liệu bán cấu trúc bao gồm các tệp trao đổi dữ liệu điện tử (EDI), bảng tính, nguồn dữ liệu từ các bộ cảm biến Dữ liệu bán cấu trúc thường có các yêu cầu lưu trữ và xử lý trước đặc biệt, đặc biệt nếu định dạng cơ bản không dựa trên văn bản Một ví dụ về tiền xử lý dữ liệu bán cấu trúc sẽ là xác thực tệp XML để đảm bảo rằng nó tuân thủ theo lược đồ của nó

Siêu dữ liệu (Metadata): Siêu dữ liệu cung cấp thông tin về các đặc điểm và

cấu trúc của bộ dữ liệu Loại dữ liệu này chủ yếu được tạo bằng máy và có thể được thêm vào dữ liệu Việc theo dõi siêu dữ liệu rất quan trọng đối với việc xử

lý, lưu trữ và phân tích dữ liệu lớn vì nó cung cấp thông tin về phả hệ của dữ liệu

và nguồn gốc của nó trong quá trình xử lý Ví dụ về siêu dữ liệu bao gồm: Thẻ XML cung cấp ngày xác thực và ngày tạo tài liệu; Các thuộc tính cung cấp kích thước tệp và độ phân giải của ảnh kỹ thuật số; Các giải pháp dữ liệu lớn thường dựa trên siêu dữ liệu, đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc

[5]

1.1.2 Các khái niệm lưu trữ dữ liệu lớn

Các dữ liệu thu được từ các nguồn bên ngoài thường không ở định dạng hoặc cấu trúc có thể xử lý ngay được Để khắc phục được tình trạng này, việc sắp xếp lưu trữ dữ liệu là vô cùng cần thiết Xử lý sắp xếp lưu trữ dữ liệu bao gồm các bước: Lọc dữ liệu, làm sạch dữ liệu và chuẩn bị dữ liệu Do nhu cầu lưu trữ dữ liệu trong BigData, nên có nhiều công nghệ tiên tiến được tạo ra để hướng tới việc

Trang 21

Cụm dữ liệu (Clusters)

Trong điện toán, một cụm là một tập hợp các máy chủ hoặc các nút được liên kết chặt chẽ Các máy chủ này thường có cùng phần cứng và được kết nối với nhau thông qua một mạng để hoạt động như một đơn vị lưu trữ và xử lý dữ liệu Mỗi nút trong cụm có các tài nguyên riêng biệt, chẳng hạn như bộ nhớ, bộ xử lý

và ổ cứng Một cụm có thể thực thi một tác vụ bằng cách chia nó thành các phần nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm

Hệ thống lưu trữ file, hệ thống lưu trữ file phân tán

Hệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương pháp lưu trữ và sắp xếp dữ liệu trên thiết bị lưu trữ (ổ đĩa flash, DVD, ổ cứng…) File (tệp) là một đơn vị lưu trữ dữ liệu nhỏ nhất được quản lý bởi hệ thống file Về mặt logic, hệ thống file có cấu trúc như một cây thư mục Các hệ điều hành sử dụng

hệ thống file để lưu trữ và truy xuất dữ liệu cho các ứng dụng Mỗi một hệ điều hành có thể có một hoặc nhiều hệ thống file, ví dụ hệ thống file NTFS trên hệ điều hành Microsoft Windows và hệ thống file EXT trên Linux

Một hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống file có thể lưu trữ các file (tệp) có dung lượng lớn được phân tán đều trên các nút của cụm dữ liệu Nó cho phép các file được truy cập từ nhiều vị trí khác nhau Ví dụ,

hệ thống file phân tán của Google (GFS) và hệ thống file phân tán Hadoop (HDFS) [5]

Cơ sở dữ liệu không quan hệ (Non-SQL)

Cơ sở dữ liệu Non-SQL là CSDL không quan hệ, có khả năng mở rộng cao, tính chịu lỗi và được thiết kế đặc biệt cho dữ liệu không có cấu trúc hoặc bán cấu trúc CSDL Non-SQL này thường được cung cấp giao diện truy vấn API và có thể được gọi từ bên trong ứng dụng CSDL Non-SQL còn có khả năng hỗ trợ các truy vấn có cấu trúc (SQL)

CSDL Non-SQL có thể được phân thành bốn loại dựa trên cách chúng lưu trữ

dữ liệu, như trong Hình 1.1 – 1.4: Dạng key-value (khóa-giá trị); Dạng document (tài liệu); Dạng column-family; Dạng graph (đồ thị) [5]

Trang 22

Hình 1.1 Một ví dụ về lưu trữ dạng Key-value

Hình 1.2 Một ví dụ về lưu trữ dạng Document

Hình 1.3 Một ví dụ về lưu trữ dạng Column-family

Hình 1.4 Một ví dụ về lưu trữ dạng Graph

Phân đoạn dữ liệu (Sharding)

Phân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ngang, từ một tập

dữ liệu lớn thành một tập hợp các bộ dữ liệu nhỏ hơn, dễ quản lý hơn được gọi là phân đoạn Các phân đoạn được phân phối trên nhiều nút, trong đó mỗi một nút

là máy chủ Mỗi phân đoạn được lưu trữ trên một nút riêng biệt và mỗi nút chỉ chịu trách nhiệm cho dữ liệu được lưu trữ trên đó Mỗi phân đoạn có cùng một lược đồ (schema) và tất cả các phân đoạn đều đại diện cho một bộ dữ liệu hoàn chỉnh [5]

Việc xử lý phân đoạn dữ liệu thường trong suốt với các máy client, phân đoạn dữ liệu cho phép phân phối tải xử lý trên nhiều nút (node) để có khả năng mở rộng lưu

Trang 23

bằng cách thêm các tài nguyên (node) Khi đó mỗi một node chỉ chịu trách nhiệm cho một phần của toàn bộ tập dữ liệu, do vậy thời gian đọc/ghi được cải thiện rất nhiều Một lợi ích khác của phân đoạn dữ liệu là khả năng chịu lỗi Trong trường hợp một node bị lỗi, chỉ có dữ liệu trên node đó bị ảnh hưởng [5]

Sao lưu dữ liệu (Repilication)

Sao lưu dữ liệu là quá trình tạo ra nhiều bản sao cho một tập dữ liệu nằm ở trên nhiều node Sao lưu dữ liệu cung cấp khả năng mở rộng và tính khả dụng của dữ liệu do được lưu trên nhiều node khác nhau Khả năng chịu được lỗi cũng được cải thiện do có dự phòng dữ liệu – dữ liệu không bị mất đi khi một node riêng lẻ bị lỗi Hiện nay, có 02 mô hình sao lưu dữ liệu là sao lưu chủ – tớ (master-slave)

và sao lưu ngang hàng (peer-to-peer) [5]

Nguyên lý CAP (Consistency, Availability, and Partition tolerance)

Nguyên lý CAP [5] còn được

gọi là nguyên lý Brewer, thể hiện

với ba ràng buộc liên quan đến các

hệ thống cơ sở dữ liệu phân tán đó

là tính nhất quán (C-Consistency),

độ khả dụng (Availability) và

ngưỡng phân vùng (Partition

tolerance) Nguyên lý nói rằng một

hệ thống cơ sở dữ liệu phân tán,

chạy trên một cụm, chỉ có thể đáp

ứng hai trong ba thuộc tính sau: Hình 1.5 Sơ đồ Venn - định lý CAP + Tính nhất quán:Việc đọc từ bất kỳ nút nào đều có dữ liệu đầu ra như nhau + Tính khả dụng: Yêu cầu đọc/ghi sẽ luôn được xác nhận dưới hai dạng: thành công hay thất bại

+ Ngưỡng phân vùng: Hệ thống cơ sở dữ liệu có thể chịu đựng được mất điện liên lạc chia cụm thành nhiều silo và vẫn có thể phục vụ các yêu cầu đọc/ghi

Nguyên tắc thiết kế ACID

ACID là một nguyên tắc thiết kế cơ sở dữ liệu liên quan đến quản lý giao dịch

Nó là từ viết tắt của tính nguyên tử (Atomicity), tính nhất quán (Consistency), độ cách ly (Isolation) và độ bền (Durability)

Trang 24

ACID là một phương pháp quản lý các giao dịch đồng thời, kiểm soát thông qua khóa bản ghi (record locks) để đảm bảo tính nhất quán được duy trì ACID là phương pháp truyền thống để quản lý cơ sở dữ liệu giao dịch trong các hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS)

+ Tính nguyên tử đảm bảo rằng tất cả các giao dịch sẽ luôn luôn thành công hoặc thất bại hoàn toàn Nói cách khác, không có giao dịch một phần + Tính nhất quán đảm bảo rằng dữ liệu phải luôn luôn phù hợp với định dạng

để có thể được ghi được vào CSDL Một CSDL ở trạng thái nhất quán sẽ vẫn ở trạng thái nhất quán sau khi giao dịch thành công

+ Độ cách ly đảm bảo rằng kết quả của một giao dịch đang thực hiện không thể ảnh hưởng bởi một giao dịch khác cho đến khi giao dịch đó hoàn thành + Độ bền đảm bảo rằng kết quả của một giao dịch là vĩnh viễn Nói cách khác, một khi giao dịch đã được thực hiện, nó không thể được khôi phục dù cho

hệ thống có thể xảy ra lỗi [5]

1.1.3 Các khái niệm về xử lý dữ liệu lớn

Xử lý giao dịch trực tuyến (OLTP)

OLTP là một hệ thống phần mềm xử lý dữ liệu theo hướng giao dịch Thuật ngữ giao dịch trực tuyến dùng để chỉ các hành động xử lý theo hướng thời gian thực (real time) Dữ liệu được lưu giữ trong hệ thống OLTP được chuẩn hóa, cơ bản có cấu trúc và là đầu vào cho các xử lý phân tích

Các truy vấn được xử lý trong hệ thống OLTP bao gồm các thao tác chèn, xóa

và cập nhật đơn giản với thời gian phản hồi mức mili giây Ví dụ bao gồm hệ thống đặt vé, ngân hàng và hệ thống điểm bán hàng [5]

* Xử lý phân tích trực tuyến (OLAP)

Các hệ thống xử lý phân tích trực tuyến (OLAP) được sử dụng để xử lý các truy vấn phân tích dữ liệu OLAP là một phần không thể thiếu của BI, khai phá

dữ liệu và học máy OLAP có liên quan đến BigData ở chỗ chúng có thể đóng vai trò là nguồn dữ liệu đầu vào cũng như nguồn dữ liệu đầu ra của BigData Chúng được sử dụng trong phân tích chẩn đoán, phân tích dự đoán và phân tích đề xuất Các hệ thống OLAP thực hiện các truy vấn phức tạp, dài hạn đối với cơ sở dữ liệu

đa chiều có cấu trúc được tối ưu hóa để thực hiện các phân tích nâng cao

Hệ thống OLAP lưu trữ dữ liệu lịch sử dưới dạng không được chuẩn hóa để

hỗ trợ khả năng báo cáo nhanh OLAP cũng có khả năng lưu trữ các dữ liệu này

Trang 25

dưới dạng cấu trúc đa chiều để đáp ứng các truy vấn phức tạp dựa trên mối quan

hệ dữ liệu [5]

* Trích xuất dữ liệu (ETL)

Trích xuất dữ liệu (ETL - Extract Transform Load) là quá trình chuyển tải từ

hệ thống nguồn đến hệ thống đích Hệ thống nguồn ở đây có thể là CSDL, tệp hoặc ứng dụng Tương tự hệ thống đích có thể là CSDL hoặc các hệ thống lưu trữ khác ETL là các xử lý chính trong kho dữ liệu (Data warehouse) Trong BigData, ETL được sử dụng để chuyển đổi giữa các loại dữ liệu khác nhau Hình 1.6 cho thấy dữ liệu trích xuất được lấy từ các nguồn khác nhau, được chuyển đổi trước khi được đưa vào hệ thống đích [5]

Hình 1.6 Một quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển

đổi nó để tải vào một hệ thống đích duy nhất

Xử lý dữ liệu song song

Xử lý dữ liệu song song là việc chia một nhiệm vụ lớn hơn thành nhiều nhiệm vụ nhỏ hơn chạy đồng thời với mục tiêu là giảm thời gian thực hiện Mặc dù cơ chế xử lý

dữ liệu song song có thể đạt được thông qua nhiều máy được nối mạng, nhưng thông thường được áp dụng trong phạm vi một máy chủ có nhiều bộ xử lý hoặc lõi, mỗi một

bộ xử lý sẽ thực hiện một tác vụ khác nhau (Hình 1.7) [5]

Hình 1.7 Một tác vụ có thể được chia thành ba tác vụ phụ được thực thi song

song trên ba bộ xử lý khác nhau trong cùng một máy

Trang 26

Xử lý dữ liệu phân tán

Xử lý dữ liệu phân tán có liên quan chặt chẽ với xử lý dữ liệu song song trong đó áp dụng cùng một nguyên tắc "chia để trị" Tuy nhiên, xử lý dữ liệu phân tán luôn đạt được thông qua các máy riêng biệt được nối mạng với nhau thành một cụm Trong Hình 1.8, một tác vụ được chia thành ba nhiệm vụ sau đó được thực hiện trên ba máy khác nhau chia sẻ một công tắc vật lý [5]

Hình 1.8 Một ví dụ về xử lý dữ liệu phân tán

Xử lý dữ liệu Hadoop

Hadoop là nền tảng mã nguồn mở để lưu trữ dữ liệu quy mô lớn và xử lý dữ liệu tương thích với phần cứng Hadoop đã trở thành một nền tảng công nghiệp thực sự cho các giải pháp BigData Nó có thể được sử dụng như một công cụ trích xuất, chuyển đổi và lưu trữ dữ liệu ETL (Extract, Tranformation, Loading) Ngoài ra còn

là một công cụ phân tích để xử lý một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và không cấu trúc Hadoop thiết lập cơ chế MapReduce để xử lý dữ liệu (Hình 1.9) [5]

Hình 1.9 Hadoop là một khung đa năng cung cấp cả khả năng xử lý

và lưu trữ

Trang 27

Việc xử lý dữ liệu trong BigData được phân biệt theo khối lượng và tính chất của dữ liệu được xử lý trong một khoảng thời gian nhất định Hiện có 02 hình thức xử lý dữ liệu trong BigData:

+ Xử lý dữ liệu theo lô (batch processing), còn được gọi là xử lý ngoại tuyến

(offline), là việc xử lý dữ liệu với số lượng lớn, có độ trễ xử lý cao Hình thức xử lý này thường liên quan đến một lượng lớn dữ liệu với việc đọc/ghi tuần tự hoặc chỉ đọc/chỉ ghi Các truy vấn có thể phức tạp và liên quan đến nhiều phép nối Các hệ thống chạy cơ chế OLAP như BI hay các công cụ phân tích được định hướng theo lô vì chúng là các tác vụ đòi hỏi nhiều khả năng đọc với khối lượng dữ liệu lớn

+ Xử lý giao dịch (transaction processing) còn được gọi là xử lý trực tuyến

(online) là xử lý tương tác dữ liệu có độ trễ thấp Hình thức xử lý dữ liệu này liên quan đến một lượng nhỏ dữ liệu với việc đọc và ghi ngẫu nhiên Khối lượng công việc giao dịch bao gồm đọc/ghi ngẫu nhiên có số phép nối (joins) ít hơn so với xử lý dữ liệu theo lô [5]

Xử lý dữ liệu theo cụm (Cluster)

Theo cùng cách mà các cụm cung cấp hỗ trợ cần thiết để tạo ra các giải pháp lưu trữ có thể mở rộng theo chiều ngang, các cụm cũng cung cấp cơ chế cho phép

xử lý dữ liệu phân tán với khả năng mở rộng tuyến tính Vì các cụm có khả năng

mở rộng cao, chúng cung cấp một môi trường lý tưởng để xử lý Dữ liệu lớn vì các

bộ dữ liệu lớn có thể được chia thành các bộ dữ liệu nhỏ hơn và sau đó được xử

lý song song theo cách phân tán Khi tận dụng một cụm, bộ dữ liệu BigData có thể là chế độ hàng loạt (batch) hoặc chế độ thời gian thực (real time)

Một lợi ích bổ sung của các cụm là chúng cung cấp dự phòng và khả năng chịu lỗi vốn có, vì chúng bao gồm các nút riêng biệt về mặt vật lý Dự phòng và khả năng chịu lỗi cho phép xử lý và phân tích khả năng phục hồi xảy ra nếu xảy ra lỗi mạng hoặc nút Do sự biến động của nhu cầu xử lý được đặt trong môi trường Dữ liệu lớn, tận dụng các dịch vụ cơ sở hạ tầng máy chủ đám mây hoặc môi trường phân tích sẵn sàng làm xương sống của cụm, có thể cảm nhận được do tính linh hoạt và mô hình tính toán dựa trên tiện ích của nó [5]

1.1.4 Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu

Phân tích dữ liệu (Data Analysis) là quá trình xử lý dữ liệu để tìm ra các sự kiện, các mối quan hệ, mẫu (patterns) dữ liệu, hiểu biết dữ liệu và xu thế Mục tiêu của phân tích dữ liệu là để hỗ trợ cho việc ra quyết định tốt hơn

Trang 28

Xử lý phân tích dữ liệu (Data Analytics) là một thuật ngữ rộng hơn khái niệm phân tích dữ liệu (Data Analysis) Quá trình này là việc quản lý vòng đời dữ liệu, bao gồm: Thu thập dữ liệu; Làm sạch dữ liệu; Tổ chức dữ liệu; Lưu trữ dữ liệu; Phân tích và quản lý dữ liệu Trong lĩnh vực BigData, phân tích dữ liệu còn cho phép phát triển các phương pháp dựa trên nền tảng và công nghệ phân tán có khả năng mở rộng cao Nó có khả năng phân tích một khối lượng dữ liệu lớn từ các nguồn khác nhau

Hình 1.10.Giá trị và độ phức tạp tăng từ phân tích mô tả đến đề xuất

Phân tích dữ liệu cho phép ra quyết định dựa trên dữ liệu thực tế có khoa học, nó không chỉ đơn thuần dựa vào kinh nghiệm và trực giác trong quá khứ Có thể phân thành 04 loại phân tích dữ liệu: Phân tích mô tả (descriptive analytics); Phân tích chẩn đoán (diagnostic analytics); Phân tích dự báo (predictive analytics);

Phân tích đề xuất (prescriptive analytics) [5]

Phân tích mô tả:

Các thống kê cho thấy rằng có khoảng 80% kết quả phân tích được dưới dạng phân tích mô tả Đây là dạng phân tích có giá trị thấp nhất, chỉ cần yêu cầu kỹ năng phân tích tương đối cơ bản Phân tích mô tả được thực hiện để trả lời các sự kiện đã xảy ra, các câu hỏi mẫu để phân tích mô tả có dạng như sau:

+ Doanh số bán hàng trong 12 tháng đã qua là bao nhiêu?

+ Hoa hồng hàng tháng kiếm được từ mỗi đại lý bán hàng?

Phân tích mô tả thường được thực hiện thông qua báo cáo hoặc dưới dạng bảng Dashboard (đồ thị hoặc biểu đồ) Các truy vấn được thực hiện từ kho dữ liệu của doanh nghiệp Ví dụ như hệ thống quản lý khách hàng CRM, hệ thống hoạch định nguồn lực ERP [5]

Phân tích chẩn đoán:

Trang 29

Phân tích chẩn đoán nhằm xác định nguyên nhân của hiện tượng xảy ra trong quá khứ bằng cách sử dụng các câu hỏi tập trung vào lý do xảy ra sự kiện Các dạng câu hỏi mẫu như:

+ Tại sao doanh thu Quý 2 thấp hơn doanh thu Quý 1

+ Tại sao có tỷ lệ gia tăng sự cố mạng trong ba tháng qua

Phân tích chẩn đoán cung cấp nhiều thông tin giá trị hơn phân tích mô tả, do vậy nó yêu cầu kỹ năng phân tích cao hơn Kết quả phân tích chẩn đoán thông qua các công cụ trực quan giúp người dùng xác định được xu thế Các truy vấn dữ liệu trong phân tích chẩn đoán cũng phức tạp hơn so với phân tích mô tả, nó được thực hiện trên dữ liệu đa chiều được lưu giữ trong các hệ thống phân tích [5]

Phân tích dự báo (dự đoán):

Phân tích dự đoán dùng để xác định kết quả của một sự kiện nào đó sẽ xảy ra trong tương lai Nói một cách chính xác hơn, phân tích dự đoán là mô hình dựa vào sự kiện đã xảy ra trong quá khứ với một điều kiện cụ thể để xác định sự kiện tương tự xảy ra trong tương lai Nếu các điều kiện cơ bản này thay đổi thì mô hình

dự báo phải được cập nhật Các câu hỏi mẫu cho phân tích dự báo có dạng

Phân tích đề xuất:

Phân tích đề xuất được xây dựng dựa trên kết quả của phân tích dự báo bằng cách liệt kê các hành động cần phải thực hiện Phân tích này không chỉ tập trung vào việc lựa chọn hành động nào là tốt nhất mà còn trả lời câu hỏi tại sao? Do đó, loại phân tích này thường được sử dụng để đạt được các lợi thế và giảm thiểu các rủi ro của doanh nghiệp Các dạng câu hỏi mẫu cho loại phân tích này như: + Trong số ba loại thuốc, loại thuốc nào mang lại kết quả tốt nhất?

Trang 30

+ Khi nào là thời điểm tốt nhất để giao dịch một cổ phiếu cụ thể?

Phân tích đề xuất cung cấp tri thức nhiều giá trị nhất trong các loại phân tích

kể trên, do vậy nó yêu cầu các kỹ năng phân tích tiên tiến kết hợp với các phần mềm, công cụ chuyên dụng Có thể nói phân tích đề xuất đã chuyển dịch từ việc giải thích nguyên nhân sang tư vấn hành động và nó có thể mô phỏng nhiều kịch bản xảy ra khác nhau

Loại phân tích này kết hợp dữ liệu nội bộ với dữ liệu bên ngoài Dữ liệu nội

bộ có thể bao gồm dữ liệu bán hàng hiện tại và lịch sử, thông tin khách hàng, dữ liệu sản phẩm và quy tắc kinh doanh Dữ liệu bên ngoài có thể bao gồm dữ liệu truyền thông xã hội, dự báo thời tiết và dữ liệu nhân khẩu học do chính phủ sản xuất Phân tích đề xuất liên quan đến việc sử dụng các quy tắc kinh doanh và một lượng lớn dữ liệu bên trong và bên ngoài để mô phỏng các kết quả và định hướng hành động tốt nhất [5]

Trang 31

1.2 HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

1.2.1 Công nghệ lưu trữ dữ liệu trong BigData

1.2.1.1 Công nghệ lưu trữ trên đĩa cứng

Lưu trữ trên đĩa thường sử dụng ổ đĩa cứng chi phí thấp để lưu trữ lâu dài Lưu trữ trên đĩa có thể được thực hiện thông qua hệ thống tệp phân tán hoặc cơ sở dữ liệu

Hệ thống lưu trữ tệp phân tán

Các hệ thống tệp phân tán hỗ trợ lưu trữ dữ liệu không có lược đồ (schema-less, cung cấp khả năng dự phòng và tính sẵn sàng cao bằng cách sao chép dữ liệu vào nhiều vị trí khác nhau Một thiết bị lưu trữ được triển khai với hệ thống tệp phân tán cung cấp khả năng truy cập nhanh, có khả năng lưu trữ các bộ dữ liệu lớn với

dữ liệu bán cấu trúc và không cấu trúc Đồng thời, nó cung cấp khả năng đọc/ghi nhanh, giải quyết đặc tính vận tốc của Dữ liệu lớn

Một hệ thống tệp phân tán không lý tưởng cho các bộ dữ liệu có số lượng lớn tệp nhỏ vì điều này tạo ra hoạt động tìm kiếm đĩa quá mức, làm chậm quá trình truy cập dữ liệu tổng thể Do những hạn chế này, hệ thống tệp phân tán hoạt động tốt nhất với ít tệp hơn nhưng lớn hơn được xử lý tuần tự Nhiều tệp nhỏ hơn thường được kết hợp thành một tệp lớn duy nhất để cho phép lưu trữ và xử lý tối ưu Điều này cho phép các hệ thống tệp phân tán có hiệu suất tăng khi dữ liệu phải được truy cập trong chế độ truyền phát mà không có đọc và ghi ngẫu nhiên

Thiết bị lưu trữ hệ thống tệp phân tán phù hợp với bộ dữ liệu lớn của dữ liệu thô Ngoài ra, đây là lựa chọn lưu trữ ít tốn kém để lưu trữ lượng lớn dữ liệu trong một khoảng thời gian dài cần duy trì trực tuyến Điều này là do có thể bổ sung các

bộ đĩa cứng vào cụm mà không cần giảm tải dữ liệu để lưu trữ dữ liệu ngoại tuyến Cần lưu ý rằng các hệ thống tệp phân tán không cung cấp khả năng tìm kiếm nội dung của các tệp dưới dạng tiêu chuẩn [5]

Hệ thống lưu trữ CSDL quan hệ RDBMS

Các hệ thống quản lý RDBMS (Relational DB management systems) rất tốt để

xử lý khối lượng công việc giao dịch liên quan đến một lượng nhỏ dữ liệu với các thuộc tính đọc/ghi ngẫu nhiên Các RDBMS tuân thủ nguyên tắc thiết kế ACID,

do vậy các hệ thống RDBMS (chịu giới hạn bởi một nút) không hỗ trợ tính dự phòng và khả năng chịu lỗi [5]

Trang 32

Để xử lý khối lượng lớn dữ liệu đến với tốc độ nhanh, cơ sở dữ liệu quan hệ thường cần phải mở rộng quy mô Tuy nhiên các hệ thống RDBMS chỉ có cơ chế phân chia theo chiều dọc, không chia tỷ lệ theo chiều ngang, đây là một nhược điểm lớn Điều này làm cho các RDBMS không lý tưởng để lưu trữ dữ liệu lâu dài được tích lũy theo thời gian Mặt khác, CSDL quan hệ thường yêu cầu dữ liệu tuân thủ lược đồ Do đó, các hệ thống RDBMS khi lưu trữ dữ liệu bán cấu trúc và không có cấu trúc phải thực hiện gián tiếp Điều này phát sinh độ trễ cao, độ trễ này làm cho CSDL quan hệ không lý tưởng để lưu trữ dữ liệu tốc độ cao trong khi cần một thiết bị lưu trữ CSDL có tính sẵn sàng cao với khả năng ghi dữ liệu nhanh

Do những nhược điểm đó, RDBMS truyền thống thường không hữu ích như thiết bị lưu trữ chính trong môi trường giải pháp Dữ liệu lớn [5]

Hệ thống lưu trữ CSDL Non-SQL

Sự xuất hiện của các hệ thống lưu trữ Non-SQL chủ yếu đáp ứng cho các tính chất đặc trưng của BigData (Volume, Velocity, Variety) Yêu cầu lưu trữ của khối lượng dữ liệu ngày càng tăng yêu cầu sử dụng cơ sở dữ liệu có khả năng mở rộng cao trong khi vẫn giảm chi phí cho doanh nghiệp để duy trì tính cạnh tranh Các

hệ thống lưu trữ Non-SQL đáp ứng yêu cầu này bằng cách cung cấp khả năng mở rộng quy mô trong khi sử dụng các máy chủ hàng hóa rẻ tiền

Dòng dữ liệu nhanh đòi hỏi cơ sở dữ liệu với khả năng ghi dữ liệu truy cập nhanh Các hệ thống lưu trữ Non-SQL cho phép ghi nhanh bằng cách sử dụng nguyên tắc lược đồ khi đọc thay vì nguyên tắc ghi trên lược đồ Có tính sẵn sàng cao, các hệ thống này có thể đảm bảo độ trễ khi xảy ra lỗi node/mạng Hệ thống lưu trữ cần xử lý các định dạng dữ liệu khác nhau bao gồm tài liệu, email, hình ảnh và video và dữ liệu không đầy đủ Hệ thống lưu trữ Non-SQLcó thể lưu trữ các dạng khác nhau dữ liệu bán cấu trúc và không cấu trúc Ngoài ra, hệ thống này còn hỗ trợ cho dữ liệu không có lược đồ

Căn cứ vào dạng dữ liệu lưu trữ, hệ thống lưu trữ dữ liệu Non-SQL được phân chia thành 4 loại: Hệ thống lưu trữ dữ liệu dạng Key-Value, Document, Column-family và Graph [5]

Hệ thống lưu trữ CSDL NewSQL

Các thiết bị lưu trữ Non-SQL có khả năng mở rộng cao, khả dụng, chịu lỗi và nhanh chóng cho các hoạt động đọc/ghi Tuy nhiên, chúng không cung cấp cùng

Trang 33

ACID Theo mô hình BASE, các thiết bị lưu trữ Non-SQL chỉ cung cấp tính nhất quán ở trạng thái xử ly cuối cùng thay vì tính nhất quán ngay lập tức Do đó, chúng không thích hợp để sử dụng khi thực hiện các hệ thống giao dịch quy mô lớn Các thiết bị lưu trữ NewQuery kết hợp các nguyên tắc thiết kế ACID của RDBMS với khả năng mở rộng và khả năng chịu lỗi được cung cấp bởi các thiết bị lưu trữ Non-SQL Ngoải ra, các cơ sở dữ liệu New SQL thường hỗ trợ cú pháp tuân thủ SQL cho quá trình thao tác dữ liệu và chúng thường sử dụng mô hình dữ liệu quan hệ logic để lưu trữ dữ liệu

Cơ sở dữ liệu New SQL có thể được sử dụng để phát triển các hệ thống OLTP với khối lượng giao dịch rất lớn, ví dụ như một hệ thống ngân hàng Chúng cũng

có thể được sử dụng cho các phân tích thời gian thực, ví dụ như phân tích hoạt động, vì một số triển khai tận dụng lưu trữ trong bộ nhớ So với hệ thống lưu trữ Non-SQL, thiết bị lưu trữ New SQL cung cấp quá trình chuyển đổi dễ dàng hơn từ RDBMS truyền thống sang cơ sở dữ liệu có khả năng mở rộng cao do hỗ trợ SQL Ví dụ về cơ sở dữ liệu NewSQL bao gồm VoltDB, NuoDB và InnoDB [5]

1.2.1.2 Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)

Một thiết bị lưu trữ trong bộ nhớ thường sử dụng RAM, bộ nhớ chính của máy tính, làm phương tiện lưu trữ để cung cấp truy cập dữ liệu nhanh Dung lượng ngày càng tăng và chi phí RAM giảm, cùng với tốc độ đọc/ghi ngày càng tăng của ổ cứng, đã giúp phát triển các giải pháp lưu trữ dữ liệu trong bộ nhớ Lưu trữ dữ liệu trong bộ nhớ giúp loại bỏ độ trễ của I/O của đĩa và thời gian truyền dữ liệu giữa bộ nhớ chính và ổ cứng Việc giảm tổng thể độ trễ đọc/ghi dữ liệu này giúp

xử lý dữ liệu nhanh hơn nhiều Dung lượng thiết bị lưu trữ in-memory có thể được tăng lên một cách ồ ạt bằng cách mở rộng theo chiều ngang của cụm đang lưu trữ thiết bị lưu trữ trong bộ nhớ

Bộ nhớ dựa trên cụm cho phép lưu trữ một lượng lớn dữ liệu, bao gồm cả bộ

dữ liệu BigData, có thể được truy cập nhanh hơn đáng kể khi so sánh với thiết bị lưu trữ trên đĩa Điều này làm giảm đáng kể thời gian thực hiện chung của phân tích Dữ liệu lớn, do đó cho phép phân tích Dữ liệu lớn theo thời gian thực

Hình 1.11 minh họa một so sánh thời gian truy cập giữa các thiết bị lưu trữ trong bộ nhớ và đĩa cứng Việc đọc tuần tự 1 MB dữ liệu từ thiết bị lưu trữ trong

bộ nhớ mất khoảng 0,25 ms, trong khi cùng một lượng dữ liệu từ thiết bị lưu trữ

Trang 34

trên đĩa mất khoảng 20 ms Điều này chứng tỏ rằng việc đọc dữ liệu từ bộ lưu trữ

bộ nhớ trong nhanh hơn khoảng 80 lần so với lưu trữ trên đĩa

Hình 1.11 Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nhanh hơn 80

lần so với thiết bị lưu trữ trên đĩa

Thiết bị lưu trữ trong bộ nhớ cho phép phân tích trong bộ nhớ, dùng để phân tích dữ liệu trong bộ nhớ Phân tích trong bộ nhớ cho phép phân tích hoạt động

và BI hoạt động thông qua thực hiện nhanh các truy vấn và thuật toán

Về cơ bản, lưu trữ trong bộ nhớ cho phép hiểu được luồng dữ liệu nhanh trong môi trường Dữ liệu lớn (đặc tính vận tốc) bằng cách cung cấp phương tiện lưu trữ tạo điều kiện cho việc tạo thông tin chi tiết theo thời gian thực Điều này hỗ trợ đưa ra quyết định nhanh chóng để giảm thiểu đe dọa hoặc tận dụng cơ hội

Thiết bị lưu trữ trong bộ nhớ Dữ liệu lớn được triển khai trên một cụm, cung cấp tính sẵn sàng và dự phòng cao Do đó, khả năng mở rộng theo chiều ngang có thể đạt được bằng cách thêm nhiều nút hoặc bộ nhớ Khi so sánh với thiết bị lưu trữ trên đĩa, thiết bị lưu trữ trong bộ nhớ đắt tiền vì chi phí bộ nhớ cao hơn so với thiết bị lưu trữ dựa trên đĩa

Mặc dù máy 64 bit có thể sử dụng 16 exabyte bộ nhớ, do các giới hạn vật lý của máy, chẳng hạn như số lượng khay nhớ, bộ nhớ được cài đặt ít hơn đáng kể

Để nhân rộng ra, nó không chỉ là việc bổ sung thêm bộ nhớ mà còn là sự bổ sung các nút được yêu cầu mười một giới hạn bộ nhớ cho mỗi nút Điều này làm tăng chi phí lưu trữ dữ liệu

Ngoài việc đắt tiền, các thiết bị lưu trữ trong bộ nhớ không cung cấp cùng mức

hỗ trợ cho việc lưu trữ dữ liệu lâu bền Yếu tố giá ảnh hưởng hơn nữa đến khả năng có thể đạt được của thiết bị trong bộ nhớ khi so sánh với thiết bị lưu trữ trên đĩa Do đó, chỉ có dữ liệu cập nhật và mới nhất có giá trị nhất được lưu trong bộ

Trang 35

Tùy thuộc vào cách nó được triển khai, một thiết bị lưu trữ trong bộ nhớ có thể

hỗ trợ lưu trữ không có lược đồ hoặc lưu trữ nhận thức lược đồ Hỗ trợ lưu trữ không có lược đồ được cung cấp thông qua lưu trữ dữ liệu dựa trên khóa-giá trị Các thiết bị lưu trữ trong bộ nhớ có thể được triển khai như: Công nghệ lưu trữ IMDG và công nghệ lưu trữ IMDB Mặc dù cả hai công nghệ này đều sử dụng

bộ nhớ làm phương tiện lưu trữ dữ liệu cơ bản, nhưng điều làm cho chúng khác biệt là cách lưu trữ dữ liệu trong bộ nhớ [5]

Công nghệ lưu trữ dữ liệu IMDG (In-Memory Data Grids) lưu trữ dữ liệu

trong bộ nhớ dưới dạng cặp giá trị khóa trên nhiều nút trong đó các khóa và giá trị có thể là bất kỳ đối tượng kinh doanh hoặc dữ liệu ứng dụng nào ở dạng tuần

tự Điều này hỗ trợ lưu trữ dữ liệu không có lược đồ thông qua lưu trữ dữ liệu bán cấu trúc hoặc không có cấu trúc Truy cập dữ liệu thường được cung cấp thông qua API như trong hình 1.12 [5]

Hình 1.12 Một ví dụ mô tả việc truy xuất dữ liệu từ IMDG

Công nghệ lưu trữ dữ liệu IMDB (In-Memory Databases) sử dụng công

nghệ cơ sở dữ liệu và tận dụng hiệu năng của RAM để khắc phục các vấn đề về

độ trễ thời gian chạy gây ra cho các thiết bị lưu trữ trên đĩa như trong hình 1.14:

Hình 1.14 Một ví dụ mô tả việc truy xuất dữ liệu từ IMDB

Trang 36

IMDB có thể để lưu trữ dữ liệu có cấu trúc (IMDB quan hệ) hoặc có thể tận dụng công nghệ Non-SQL (IMDB không quan hệ) để lưu trữ dữ liệu bán cấu trúc

và không cấu trúc

Không giống như IMDG, cung cấp quyền truy cập dữ liệu thông qua API, IMDB quan hệ sử dụng ngôn ngữ SQL nên quen thuộc hơn, hỗ trợ các nhà phân tích dữ liệu hoặc nhà khoa học dữ liệu không có kỹ năng lập trình nâng cao Các IMDB dựa trên Non-SQL thường cung cấp quyền truy cập dựa trên API, có thể đơn giản như các thao tác đặt, nhận và xóa Tùy thuộc vào việc triển khai cơ bản, một số IMDB mở rộng quy mô, trong khi một số khác mở rộng quy mô, để đạt được khả năng mở rộng

IMDB quan hệ thường có khả năng mở rộng ít hơn IMDG, vì IMDB quan hệ cần hỗ trợ các truy vấn và giao dịch phân tán trên toàn cụm Một số triển khai IMDB có thể được hưởng lợi từ việc nhân rộng, giúp giải quyết độ trễ xảy ra khi thực hiện các truy vấn và giao dịch trong môi trường mở rộng Ví dụ bao gồm Aerospike, MemQuery, Altibase HDB, eXtreme DB và Pivotal GemFire XD [5]

1.2.2 Xử lý dữ liệu trong BigData

1.2.2.1 Xử lý dữ liệu với mô hình Map-Reduce

MapReduce là một mô hình được sử dụng rộng rãi cho cơ chế xử lý theo lô

Nó có khả năng mở rộng cao và đáng tin cậy dựa trên nguyên tắc “chia để trị”, cung cấp khả năng chịu lỗi và dự phòng tích hợp Nó phân chia một vấn đề lớn thành một tập hợp các vấn đề nhỏ hơn có thể được giải quyết nhanh chóng MapReduce có nguồn gốc từ cả hai mô hình xử lý phân tán và song song Đây là một công cụ được sử dụng để xử lý các bộ dữ liệu lớn theo mô hình xử lý song song được triển khai trên các cụm phần cứng

MapReduce không yêu cầu dữ liệu đầu vào phù hợp với bất kỳ mô hình dữ liệu cụ thể nào Do đó, nó có thể được sử dụng để xử lý các bộ dữ liệu không có lược đồ MapReduce dựa trên tài liệu nghiên cứu của Google, được xuất bản vào đầu năm 2000

Công cụ xử lý MapReduce hoạt động khác so với mô hình xử lý dữ liệu truyền thống Trong mô hình truyền thống, xử lý dữ liệu yêu cầu di chuyển dữ liệu từ nút lưu trữ sang nút xử lý chạy thuật toán xử lý dữ liệu Cách tiếp cận này hoạt động tốt cho các bộ dữ liệu nhỏ hơn; Tuy nhiên, với các bộ dữ liệu lớn, việc di chuyển

Trang 37

MapReduce, thuật toán xử lý dữ liệu sẽ được chuyển đến các nút lưu trữ dữ liệu Thuật toán xử lý dữ liệu thực thi song song trên các nút này, do đó loại bỏ sự cần thiết phải di chuyển dữ liệu Điều này không chỉ tiết kiệm băng thông mạng mà còn giúp giảm đáng kể thời gian xử lý cho các bộ dữ liệu lớn, vì việc xử lý các khối dữ liệu nhỏ hơn song song nhanh hơn nhiều

MapReduce thường không phù hợp để xử lý Dữ liệu lớn theo thời gian thực MapReduce không thể xử lý dữ liệu theo kiểu tăng dần và chỉ có thể xử lý bộ dữ liệu hoàn chỉnh Do đó, nó yêu cầu tất cả dữ liệu đầu vào phải có sẵn toàn bộ trước khi thực hiện công việc xử lý dữ liệu Tuy nhiên, có một số giải pháp có thể cho phép sử dụng MapReduce trong các tình huống xử lý Dữ liệu lớn gần với thời gian thực [5]

1.2.2.2 Các tác vụ Map và Reduce

Một lần xử lý duy nhất của công cụ xử lý MapReduce được gọi là công việc MapReduce Mỗi công việc MapReduce bao gồm một nhiệm vụ Map và một nhiệm vụ Reduce và mỗi nhiệm vụ bao gồm nhiều giai đoạn Hình 1.16 cho thấy tác vụ map và reduce, cùng với các giai đoạn riêng lẻ của chúng [5]

Hình 1.16 Một minh họa về công việc MapReduce

* Các tác vụ Map:

- Tác vụ Map (hàm map): Giai đoạn đầu tiên của MapReduce được gọi là Map,

trong đó bộ dữ liệu được chia thành nhiều phần nhỏ hơn Mỗi phần được phân tách thành các bản ghi và được gán cho một cặp khóa-giá trị (key-value) Trong đó khóa thường là vị trí thứ tự của bản ghi và giá trị là bản ghi hiện tại

Trang 38

- Tác vụ Combine: Nói chung, đầu ra của hàm Map được xử lý trực tiếp bởi hàm

Reduce Tuy nhiên thực tế các tác vụ map và các tác vụ reduce chủ yếu chạy trên các nút khác nhau Điều này đòi hỏi có sự di chuyển dữ liệu giữa các tiến trình mapper và reducer Quá trình trao đổi dữ liệu này có thể tiêu thụ rất nhiều băng thông và trực tiếp góp phần gây ra trễ xử lý nhất là đối với các bộ dữ liệu lớn Vì lý do này, công cụ MapReduce cung cấp một hàm combine (tùy chọn)

để tóm tắt đầu ra của trình mapper trước khi nó được vào xử lý bởi bộ reducer

- Tác vụ Partition: Trong thực tế, nếu có nhiều hơn tác vụ reducer tham gia, tác

vụ phân vùng sẽ phân chia đầu ra từ bộ mapper hoặc bộ combiner (nếu có) thành các phân vùng theo reducer Trong đó, số lượng phân vùng sẽ bằng số lượng reducer Hàm partition là giai đoạn cuối cùng của tác vụ Map Nó trả về địa chỉ của reducer mà một phân vùng cụ thể sẽ được gửi đến xử lý [5]

* Các tác vụ Reduce:

- Tác vụ Shuffle and Sort (Xáo trộn và sắp xếp): Đây là giai đoạn đầu tiên của

tác vụ Reduce, đầu ra của tiến trình Partition thông qua mạng đến các node Reduce dựa trên cặp khóa-giá trị Tiếp theo, công cụ MapReduce tự động nhóm và sắp xếp các cặp khóa-giá trị theo các khóa để đầu ra chứa một danh sách được sắp xếp của các khóa đầu vào và các giá trị của chúng có cùng các khóa xuất hiện cùng nhau Cách thức mà các khóa được nhóm và sắp xếp có thể được tùy chỉnh Sự hợp nhất này tạo ra một cặp khóa-giá trị duy nhất cho nhóm, trong đó khóa là khóa nhóm và giá trị là danh sách của tất cả các giá trị nhóm [5]

- Tác vụ Reduce: Reduce là giai đoạn cuối cùng của tác vụ Reduce Tùy thuộc

vào logic do người dùng xác định, tác vụ Reducer sẽ tiếp tục tóm tắt đầu vào của nó hoặc sẽ phát ra đầu ra mà không thực hiện bất kỳ thay đổi nào Trong

cả hai trường hợp, đối với mỗi cặp khóa-giá trị bị Reduce, danh sách các giá trị được lưu trữ trong phần giá trị của cặp được xử lý và một cặp khóa-giá trị khác được tạo ra Số lượng Reducer có thể được tùy chỉnh Cũng có thể có một công việc MapReduce mà không cần Reducer, ví dụ như khi thực hiện lọc dữ liệu Lưu ý rằng chữ ký đầu ra (khóa-giá trị) của hàm Map phải khớp với chữ

ký đầu vào (khóa-giá trị) của hàm Reducer/ Combiner [5]

* Một ví dụ MapReduce đơn giản

Các bước sau đây được hiển thị trong Hình 1.17 [5]:

+ Bước 1: Đầu vào (sales.txt) được chia thành hai phần

Trang 39

+ Bước 2: Hai tác vụ ánh xạ chạy trên hai nút khác nhau, Nút A và Nút B,

trích xuất sản phẩm và số lượng từ các bản ghi phân tách tương ứng Đầu

ra từ mỗi chức năng bản đồ là một cặp khóa-giá trị trong đó sản phẩm là khóa trong khi số lượng là giá trị

+ Bước 3: Bộ kết hợp sau đó thực hiện tổng kết cục bộ số lượng sản phẩm + Bước 4: Vì chỉ có một tác vụ giảm, không có phân vùng được thực hiện + Bước 5: Đầu ra từ hai tác vụ ánh xạ sau đó được sao chép sang nút thứ ba,

Node C, chạy giai đoạn xáo trộn như một phần của tác vụ rút gọn

+ Bước 6: Giai đoạn sắp xếp sau đó nhóm các số lượng giống nhau của cùng

một sản phẩm thành một danh sách

+ Bước 7: Giống như bộ kết hợp, hàm giảm sau đó tổng hợp số lượng của

từng sản phẩm duy nhất để tạo đầu ra

Hình 1.17 Một ví dụ về MapReduce đang hoạt động

1.2.3 Kỹ thuật phân tích bigdata hiện nay

Phân tích định lượng (Quantiative)

Phân tích định lượng là một kỹ thuật phân tích dữ liệu tập trung vào việc định lượng các mẫu và mối tương quan được tìm thấy trong dữ liệu Dựa trên thực tiễn thống kê, kỹ thuật này liên quan đến việc phân tích một số lượng lớn các quan sát từ bộ dữ liệu Vì kích thước mẫu lớn, kết quả có thể được áp dụng một cách tổng quát cho toàn bộ tập dữ liệu Kết quả phân tích định lượng là số liệu tuyệt đối và

do đó có thể được sử dụng để so sánh Ví dụ, một phân tích định lượng về doanh

số bán kem có thể phát hiện ra rằng nhiệt độ tăng 5 độ làm tăng doanh số bán kem

Trang 40

Phân tích định tính (Quanliative)

Phân tích định tính là một kỹ thuật phân tích dữ liệu tập trung vào việc mô tả bằng từ ngữ các phẩm chất dữ liệu khác nhau So với phân tích dữ liệu định lượng, phân tích định tính có mẫu phân tích nhỏ hơn nhưng có chiều sâu hơn Các kết quả phân tích này không thể được khái quát cho toàn bộ tập dữ liệu do kích thước mẫu nhỏ Chúng cũng không thể được đo bằng số hoặc được sử dụng để so sánh

số Ví dụ, một phân tích về doanh số bán kem có thể tiết lộ rằng số liệu bán hàng của tháng 5 không cao như tháng 6 Các kết quả phân tích chỉ nói rằng các số liệu

"không cao bằng" và không cung cấp sự khác biệt về con số [5]

Khai thác dữ liệu (Data mining)

Khai thác dữ liệu còn được gọi là khai phá dữ liệu, là một hình thức phân tích

dữ liệu chuyên biệt nhắm vào các bộ dữ liệu lớn Liên quan đến phân tích dữ liệu lớn, khai thác dữ liệu đề cập đến các kỹ thuật tự động, dựa trên phần mềm, sàng lọc qua các bộ dữ liệu lớn để xác định các mẫu và xu hướng Cụ thể, nó liên quan đến việc trích xuất các mẫu ẩn hoặc chưa biết trong dữ liệu với mục đích xác định các mẫu chưa biết trước đó Khai thác dữ liệu là cơ sở cho các phân tích dự đoán

và kinh doanh thông minh (BI) [5]

Phân tích thống kê (Statistical Analysis)

Phân tích dữ liệu thống kê sử dụng các phương pháp thống kê dựa trên các công thức toán học như một phương tiện để phân tích dữ liệu Phân tích thống kê thường là định lượng, nhưng cũng có thể là định tính Loại phân tích này thường được sử dụng để mô tả các bộ dữ liệu thông qua tóm tắt, chẳng hạn như cung cấp giá trị trung bình, phương sai hoặc phương thức thống kê liên quan đến tập dữ liệu Nó cũng có thể được sử dụng để suy ra các mẫu và mối quan hệ trong tập dữ

liệu, chẳng hạn như hồi quy và tương quan Có ba loại phân tích thống kê là Thử

nghiệm A/B (A/B Testing), Tương quan (Correlation) và Hồi quy (Regression)[5]

Học máy (Machine Learning)

Con người rất giỏi trong việc phát hiện các mô hình và mối quan hệ trong dữ liệu Tuy nhiên, con người không thể xử lý một lượng lớn dữ liệu Mặt khác, máy móc rất giỏi trong việc xử lý một lượng lớn dữ liệu một cách nhanh chóng, nhưng chỉ khi chúng biết cách Nếu kiến thức của con người có thể được kết hợp với tốc

độ xử lý của máy móc, máy móc sẽ có thể xử lý một lượng lớn dữ liệu mà không

Ngày đăng: 09/03/2021, 17:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w