báo và tự bản thân t ch h p đư c một hệ thống dữ liệu lớn tôi đã đặt mục ti u nghi n cứu các nội dung s u đây: Tổng quan về vấn đề nghiên cứu: Tìm hiểu về dữ liệu lớn các công nghệ li
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2019
.
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
Chuyên ngành: Hệ thống thông tin
Mã số: 8480104.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
C ộ ớ : PGS TS Phan Xuân Hiếu
Hà Nội - 2019
Trang 3Đặc biệt tôi xin đư c bày tỏ lòng biết ơn sâu sắc đến T
đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc
Tôi xin gửi lời cảm ơn đến các bạn trong lớp o học ệ thống Thông tin K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gi n học tập uối cùng tôi xin đư c gửi lời cảm ơn tới gi đình đồng nghiệp người thân đã động
vi n giúp đỡ tôi trong quá trình hoàn thành luận văn
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không tránh khỏi những thiếu sót Tôi xin trân trọng tiếp thu các ý kiến của các thầy cô, bạn bè để luận văn đư c hoàn thiện
Trân trọng cám ơn
Trang 4LỜI CAM ĐOAN
Tôi xin c m đo n các kết quả nghi n cứu thực nghiệm đư c trình bày trong luận văn này do tôi thực hiện dưới sự hướng d n củ T h n uân iếu
và đư c thực hiện trong quá trình h p tác nghi n cứu giữ Tập đoàn ông nghiệp - ông nghệ o iettel và đối tác
T t cả những th m khảo t các nghi n cứu li n qu n đều đư c n u nguồn gốc một cách r ràng t d nh mục tài liệu th m khảo củ luận văn Trong luận văn không c việc s o ch p tài liệu công trình nghi n cứu củ người khác mà không chỉ r về tài liệu th m khảo
n n y t n n m 9
H
Ngu C T H
Trang 5MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT v
DANH MỤC CÁC BẢNG vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii
MỞ ĐẦU 1
CHƯƠNG TỔNG QUAN 4
1 1 Ệ Ả 4
1 1 1 hái niệm chung về dữ liệu lớn 4
1 1 2 ác khái niệm lưu trữ dữ liệu lớn 5
1 1 3 ác khái niệm về xử l dữ liệu lớn 9
1 1 4 ái khái niệm phân t ch dữ liệu và các loại hình phân t ch dữ liệu 13
1.2 Hệ thống phân tích dữ liệu lớn 16
1 2 1 ông nghệ lưu trữ dữ liệu trong BigData 16
1 2 2 ử l dữ liệu trong BigData 21
1.2.3 Kỹ thuật phân t ch bigd t hiện n y 25
1 3 ác T T Ự 28
1 3 1 ài toán phân t ch dự báo 28
1 3 2 ác mô hình dự báo cơ bản 28
1 3 3 ác kỹ thuật phân t ch dự báo 30
1.3.4 Giới thiệu công cụ phân tích Rapidminer 41
CHƯƠNG 2 PHƯƠNG PH P TỔ CHỨC VÀ T CH HỢP Ữ IỆU ỚN 44
2 1 Ệ T Ố T Ữ Ệ Ớ T Ễ T 44
2 1 1 ột số ứng dụng hệ thống phân t ch dữ liệu lớn phổ biến hiện n y 44
2 1 2 iện trạng củ iettel 50
2 2 2 ô hình tổ chức thực tế hệ thống ig t tại iettel 56
2.2.3 Các công nghệ nền tảng về hệ thống dữ liệu lớn 58
2 2 4 ác phân hệ cài đặt củ louder ig t nterprise fl tform: 60
CHƯƠNG 3 THỰC NGHIỆM TÍCH HỢP HỆ THỐNG Ự O T RM 62
3 1 Ộ T Ự Ệ 62
3 1 1 Định ngh thu b o rời mạng 62
3 1 2 ài toán y u cầu 62
3.1.3 ác bước thực nghiệm 63
3 2 T Ể Ệ T Ố T Ự Ệ 63
Trang 63 2 1 ây dựng hệ thống phân t ch ig t thực nghiệm 63
3 2 2 ây dựng mô hình dự báo TBRM 68
3 3 T Ả T Ự Ệ Ự 69
3 3 1 hám phá dữ liệu và tạo các biến đặc trưng 69
3 3 2 ự chọn đặc trưng và mô hình h 75
3 3 3 Tối ưu mô hình dự báo 79
3 4 Đ T Ạ 82
3 4 1 ết quả đầu r củ hệ thống phân t ch dự báo thu b o rời mạng 82
3 4 2 Tri thức thu đư c s u thực nghiệm 82
KẾT LUẬN 84
TÀI LIỆU THAM KHẢO 85
PHỤ ỤC ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC - PHÂN THEO 4 NHÓM HÀNH VI 87
PHỤ ỤC 2 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAU- PHÂN THEO 4 NHÓM HÀNH VI 90
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT Ký ệ / ữ
thiết kế ACID)
(Nguyên tắc thiết kế BASE)
lý CAP)
khách hàng)
nhớ)
Trang 9DANH MỤC CÁC BẢNG
Bảng 1 1 ác thuộc t nh v dụ Ngày và Khách truy cập và thuộc t nh đư c trích xu t
IsWeek-endDayfDayg 31
Bảng 1 2 ác phương pháp tr ch chọn thuộc t nh 33
Bảng 3.1 C u hình hệ thống phân tích BigData thực nghiệm 65
Bảng 3.2 Nguồn dữ liệu hệ thống phân tích BigData thực nghiệm 67
Bảng 3.3 Các biến đặc trưng cho dữ liệu gọi đi của thuê bao 69
Bảng 3.4 Các biến đặc trưng cho dữ liệu gọi đến của thuê bao 70
Bảng 3.5 Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao 71
Bảng 3.6 Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao 71
Bảng 3.7 Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao 72
Bảng 3.8 Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao 72
Bảng 3.9 Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao 73
Bảng 3.10 Các biến đặc trưng cho dữ liệu số dư tài khoản của thuê bao 74
Bảng 3.11 Các biến đặc trưng cho dữ liệu cước phí các gĩi sử dụng 74
theo chu kỳ của thuê bao 74
Bảng 3.12 Các biến đặc trưng cho dữ liệu tổng h p ch rge cước sử dụng các dịch vụ VAS của thuê bao 74
Bảng 3.13 Các biến đặc trưng cho dữ liệu home của thuê bao 75
Bảng 3.14 Các biến đặc trưng cho dữ liệu thơng tin thuê bao, khách hàng 75
Bảng 3 15 ự chọn các thuộc t nh qu n trọng b ng thuật tốn ecision Tree 75
Bảng 3.16 Validation of the Training Data Set (80% of Total) 78
Bảng 3.17 Validation of the Testing Data Set (20% of Total) 78
Bảng 3.18 Sử dụng Logistic Regression 78
Bảng 3.19 Sử dụng Nạve Bayes 78
Bảng 3.20 So sánh các kết quả 79
ảng 3 21 ết quả phân cụm b ng thuật tốn -mean 79
ảng 3 22 ết quả chi tiết phân cụm b ng thuật tốn -mean 79
ảng 3 23 Tối ưu mơ hình b ng cách lựa chọn lại các đặc trưng 81
Bảng 3.24 Lựa chọn mơ hình dự đốn tốt nh t 82
Bảng 3.25 Mơ hình dự báo với thuật tốn Gradien Booting 82
Trang 10DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Một ví dụ về lưu trữ dạng ey-value 7
Hình 1.2 Một ví dụ về lưu trữ dạng ocument 7
Hình 1.4 Một ví dụ về lưu trữ dạng r ph 7
ình 1 5 ơ đồ Venn - định lý CAP 8
Hình 1.6 Một quy trình ETL có thể trích xu t dữ liệu t nhiều nguồn và chuyển đổi nó để tải vào một hệ thống đ ch duy nh t 10
Hình 1.8 Một ví dụ về xử lý dữ liệu phân tán 11
và lưu trữ 12
Hình 1.10.Giá trị và độ phức tạp tăng t phân tích mô tả đến đề xu t 13
Hình 1.11 Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nh nh hơn 80 lần so với thiết bị lưu trữ tr n đ 19
Hình 1.12 Một ví dụ mô tả việc truy xu t dữ liệu t IMDG 20
Hình 1.13 Một ví dụ mô tả việc truy xu t dữ liệu t IMDB 21
Hình 1.14 Một minh họa về công việc MapReduce 23
Hình 1.15 Một ví dụ về p educe đ ng hoạt động 25
Hình 1.16 Biểu diễn cây quyết định cơ bản 28
Hình 1.17 Cây quyết định cho việc chơi Tennis 29
Hình 1.18 Vai trò của mô hình và t ng tập dữ liệu 34
Hình 1.19 Overfitting, Underfitting 35
Hình 1.20 Confusion Matrix 36
ình 1 21 hương pháp i s & ri nce 37
ình 1 22 hương pháp đường cong -ROC 39
ình 1 23 Trường h p tốt nh t khi 2 đường cong không chồng lên nhau 40
ình 1 24 Trường h p khi 2 đường cong có chồng lên nhau 41
Hình 1 25 Trường h p tệ nh t khi 2 đường cong hoàn toàn chồng lên nhau 41
ình 1 26 Trường h p AUC x p xỉ 0 41
ình 2 1 ác l nh vực phân t ch dữ liệu lớn trong viễn thông 44
ình 2 2 ức độ ứng dụng phân t ch dữ liệu lớn trong viễn thông 45
ình 2 3 hương pháp tổ chức hệ thống dữ liệu lớn 53
ình 2 4 ô hình tổ chức thực tế hệ thống BigData tại Viettel 56
ình 2 5 o sánh và 59
ình 3 1 ô hình triển kh i hệ thống ig t thực nghiệm 64
ình 3 2 ô hình đ u nối hệ thống 64
ình 3 3 i o diện module Cloudera Manager 66
ình 3 4 i o diện công cụ phân t ch pidminer 66
Trang 11ình 3 5 uồng kh i phá dữ liệu trong pidminer 67
ình 3 6 uồng xử l kh i phá dữ liệu 67
ình 3 7 ô hình dự báo thu b o rời mạng 69
ình 3 8 hương pháp hu n luyện 1 cây quyết định cho mỗi nguồn dữ liệu 76
ình 3 9 ắt bỏ các mức th p và trích xu t các nút t các c p c o hơn 76
ình 3 10 ô tả cây quyết định tr n pidminer 77
ình 3 11 ác thuộc t nh qu n trọng s u khi cắt bỏ 77
ình 3 12 ô hình tối ưu 81
Trang 12MỞ ĐẦU
Tr n thế giới dữ liệu lớn ( ig t ) đã và đ ng là một trong những v n đề trung tâm, nhận đư c nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần thứ tư ig ta chính là cốt l i để sử dụng, phát triển internet vạn vật (IoT) và trí tuệ nhân tạo (AI) [1] Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo
ra một lư ng lớn dữ liệu, dự kiến đến năm 2020 lư ng dữ liệu sẽ tăng g p 50 lần hiện nay [4] Thông qua thu thập, phân tích và xử l lư ng dữ liệu lớn này sẽ tạo ra những tri thức mới, hỗ tr việc đư r quyết định của các chủ thể trên thế giới (doanh nghiệp, chính phủ người dân) [1, 4]
Trong ngành viễn thông và TT dữ liệu lớn trở thành công cụ hữu hiệu cho các nhà cung c p dịch vụ viễn thông trong kinh do nh c ng như công tác quản l vận hành kh i thác dịch vụ ác do nh nghiệp viễn thông ngày n y đã chủ động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân t ch dữ liệu làm cơ sở để giám sát quản l và r các quyết định c t nh chiến lư c nh vực áp dụng dự liệu lớn trong viễn thông r t phong phú li n qu n đến các công nghệ phân t ch dự báo học máy ( ) tr tuệ nhân tạo ( ) [2, 10] ự vào các công cụ này do nh nghiệp c thể nâng c o ch t lư ng dịch vụ cung c p đạt hiệu quả kinh do nh hạm vi ứng dụng dữ liệu lớn trong viễn thông n i ri ng
r t rộng các ứng dụng c thể kể đến như hệ thống phân t ch quản l trải nghiệm khách hàng ( ustomer xperience gmt) hệ thống giám sát quản l và tối ưu mạng lưới ( etwork ) hệ thống phân t ch hoạt động do nh nghiệp ( per tion n lytics) và thương mại dữ liệu ( t onetiz tion) [7, 11]
iettel là một do nh nghiệp hàng đầu iệt m luôn c chiến lư c đổi mới
ti n phong trong công nghệ iệc ứng dụng một cách nh nh nh t hiệu quả nh t các công nghệ mới n i chung và nh t là các công nghệ li n qu n đến dữ liệu lớn
n i ri ng luôn là thách thức củ đội ng kỹ thuật iettel ột trong những ứng dụng phổ biến nh t hiện n y mà các nhà cung c p dịch vụ viễn thông sử dụng đ
là hệ thống phân t ch dự báo khách hàng rời mạng Đây là hệ thống qu n trọng
mà đội ng kỹ thuật iettel tự nghi n cứu xây dựng dự tr n tư v n củ đối tác cung c p nền tảng dữ liệu lớn louder
ản thân là một trong những thành vi n th m gi dự án xây dựng bài toán tôi xin giới thiệu đề tài nghi n cứu: "TỔ Ứ T Ệ
T Ố T Ữ Ệ Ớ T Ự
T Ễ T " ới mong muốn hiểu đư c phương pháp phân t ch dự
Trang 13báo và tự bản thân t ch h p đư c một hệ thống dữ liệu lớn tôi đã đặt mục ti u nghi n cứu các nội dung s u đây:
Tổng quan về vấn đề nghiên cứu:
Tìm hiểu về dữ liệu lớn các công nghệ li n qu n đến dữ liệu lớn (công nghệ xử l và lưu trữ dữ liệu) các ứng dụng cho dữ liệu lớn Tìm hiểu về bài toán phân t ch dự báo và phương pháp dự báo thu b o rời mạng dự
tr n hành vi ti u dùng và th i quen sử dụng dịch vụ củ khách hàng
ây dựng t ch h p hệ thống phân t ch dữ liệu lớn phục vụ công tác dự báo
thu b o rời mạng tại iettel
Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào
thực tiễn phục vụ công tác kinh do nh củ iettel
Đối tượng nghiên cứu:
ữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ tr )
Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel
Phạm vi nghiên cứu:
Các khái niệm cơ bản về dữ liệu lớn
Giải pháp mã nguồn mở cho Big t dự tr n louder l tform
Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân t ch dự báo cụ thể
Phương pháp nghiên cứu:
Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với mục tiêu là hiểu đư c nền tảng cơ bản
Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu
và triển kh i đư c công nghệ
Tìm hiểu về các hệ thống dữ liệu phục vụ sản xu t kinh doanh của Viettel phục vụ cho sản xu t kinh doanh của doanh nghiệp với mục ti u nắm vững các nguồn dữ liệu lớn đ ng c và triển khai việc xây dựng BigData
Phương pháp thực nghiệm: ây dựng t ch h p một hệ thống dữ liệu lớn
dự tr n nền tảng louder l tform phục vụ cho một ứng dụng cụ thể là phân
t ch dự báo thu b o rời mạng củ iettel
ới các mục ti u xác định cụ thể như tr n kết quả củ luận văn dự kiến sẽ cho r đời một hệ thống phân t ch dữ liệu lớn phục vụ cho công tác dự báo thu
b o rời mạng mới (th y thế cho hệ thống v c ) ệ thống phân t ch mới này
dự tr n các thuật toán dự báo ti n tiến kết h p với công nghệ xử l dữ liệu lớn
sẽ cho r kết quả phân t ch nh nh hơn và c độ ch nh xác hơn u đ công cụ
Trang 14này sẽ giúp iettel đư r quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách hàng củ mình
Luận văn đư c c u trúc như s u:
1: TỔ
hương này trình bày các khái niệm cơ bản về dữ liệu lớn công nghệ lưu trữ
và xử l dữ liệu lớn ác bài toán phân t ch dự báo mô hình dự báo giới thiệu các kỹ thuật phân t ch dự báo và công cụ phân t ch dữ liệu pidminer c ng là một trong những nội dung qu n trọng củ phần này
2: TỔ Ứ ỘT Ệ T Ố T Ữ Ệ Ớ Đây là chương khá qu n trọng đư c chi làm 02 phần hần thứ nh t giới thiệu các ứng dụng phân t ch dữ liệu lớn phổ biến hiện n y hiện trạng các nguồn dữ liệu lớn cùng với các hệ thống ứng dụng phân t ch dữ liệu lớn tại Viettel hần c n lại sẽ chi s phương pháp tổ chức hệ thống dữ liệu lớn tập trung cách thiết kế kiến trúc hạ tầng dữ liệu lớn hiện tại củ iettel
3: T Ự Ệ T Ệ T Ố Ự THU
Ờ Ạ
hương 3 là chương chuyển thể các kiến thức nghi n cứu đư c thành nội dung ứng dụng thực tế hương này đư r thực nghiệm t ch h p một hệ thống phân t ch dự báo thu b o rời mạng với một hệ thống xử l dữ liệu lớn thành một công cụ c áp dụng dự báo cụ thể ệ thống này bước đầu cho r các kết quả sơ bộ về đặc điểm thu b o rời mạng với độ ch nh xác >80 s u khi tối ưu các bước dự báo
Tuy nhi n để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối ưu mô hình li n tục Kết quả thực nghiệm củ chương trình này chỉ mang tính ch t tham khảo chư thể áp dụng trong thực tế
Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân Nội dung thực hiện chỉ mới là qu n điểm và tư duy cá nhân sẽ còn nhiều tồn tại
và thiết sót Do vậy, r t mong quý thầy cô, bạn học và nh t là hội đồng tốt nghiệp cho ý kiến đ ng g p để luận văn đư c hoàn thiện, kết quả luận văn là công cụ dự báo đư c áp dụng hiệu quả trong thực tế
Trang 15CHƯƠNG TỔNG QUAN
1.1 CÁC KH I NIỆM CƠ ẢN
1.1.1 K ệ chung về dữ liệu lớn
iệu ata s ts
hiều tập dữ liệu h y nhiều nh m dữ liệu c li n qu n đến nh u đư c gọi là
bộ dữ liệu [5] Trong đ mỗi nh m hoặc tập con dữ liệu đ c cùng thuộc t nh giống nh u ột số v dụ về bộ dữ liệu ở 03 định dạng khác nh u:
+ ữ liệu Tweets đư c lưu giữ trong tập tin ph ng (flat file)
+ Tr ch xu t các hàng t bảng dữ liệu (d t b se t ble) đư c lưu giữ trong tệp định dạng ộ sưu tập ảnh đư c lưu trong thư mục
+ ác thông tin qu n sát về lịch sử thời tiết đư c lưu dưới dạng
Đặc điểm d liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)
ữ liệu lớn ig t c 05 đặc điểm h y c n gọi là 5 : Volume- hối lư ng lớn; Velocity-Tốc độ; riety-T nh đ dạng; Veracity-Tính xác thực và lue-
ng lại giá trị ầu hết các đặc điểm về dữ liệu lớn đư c oug ney xác định vào năm 2001 khi đăng bài viết về dữ liệu do nh nghiệp ( olume elocity riety) T nh xác thực ( er city) đư c bổ sung để t nh tỷ lệ sign l-to-noise khi
so sánh dữ liệu phi c u trúc với dữ liệu c c u trúc uối cùng lue- để xác định các kết quả phân t ch dữ liệu lớn m ng lại giá trị gì? [8]
Ph n iệt các oại d liệu
Dữ liệu có cấu trúc (Structured Data): Dữ liệu có c u trúc phù h p với mô
hình dữ liệu đư c lưu trữ ở dạng bảng húng đư c sử dụng để mô tả mối quan
hệ giữa các thực thể khác nh u và do đ thường đư c lưu trữ trong cơ sở dữ liệu quan hệ Dữ liệu có c u trúc thường đư c tạo bởi các ứng dụng doanh nghiệp và
hệ thống thông tin như hệ thống ERP và CRM Ví dụ về loại dữ liệu này bao
gồm các giao dịch ngân hàng h đơn và hồ sơ khách hàng
Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù h p với mô
hình dữ liệu hoặc lư c đồ dữ liệu đư c gọi là dữ liệu phi c u trúc gười t ước tính r ng dữ liệu phi c u trúc chiếm tới 80% dữ liệu trong b t kỳ doanh nghiệp nào gày n y dữ liệu phi c u trúc có tốc độ tăng trưởng nh nh hơn dữ liệu có
Trang 16c u trúc Một số loại dữ liệu phi c u trúc phổ biến như dữ liệu c dạng văn bản
(text) hoặc nhị phân (binary)
Dữ liệu phi c u trúc không thể đư c xử l hoặc truy v n trực tiếp b ng cơ sở
dữ liệu qu n hệ SQL Nếu muốn lưu trữ dữ liệu phi c u trúc trong cơ sở dữ liệu quan hệ, thì phải đư c lưu trữ trong một bảng dưới dạng BLOB (Binary Large Object) goài r cơ sở dữ liệu NonSQL có thể đư c sử dụng để lưu trữ dữ liệu phi c u trúc
Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán c u trúc thường là
dữ liệu c c u trúc nhưng không đồng nh t Th y vào đ dữ liệu bán c u trúc c dạng phân c p (hierarchical) hoặc đồ thị (gr phb sed) Loại dữ liệu này thường
đư c lưu trữ trong các tệp có chứ văn bản Ví dụ như các tệp XML và JSON là các dạng phổ biến của dữ liệu bán c u trúc Do tính ch t văn bản của dữ liệu này
và sự phù h p của nó với một mức độ c u trúc nào đ n dễ dàng kh i thác hơn
dữ liệu phi c u trúc
Các nguồn phổ biến của dữ liệu bán c u trúc bao gồm các tệp tr o đổi dữ liệu điện tử (EDI), bảng tính, nguồn dữ liệu t các bộ cảm biến Dữ liệu bán c u trúc thường có các yêu cầu lưu trữ và xử l trước đặc biệt đặc biệt nếu định dạng cơ bản không dự tr n văn bản Một ví dụ về tiền xử lý dữ liệu bán c u trúc sẽ là xác thực tệp để đảm bảo r ng nó tuân thủ theo lư c đồ của nó
Siêu dữ liệu (Metadata): Siêu dữ liệu cung c p thông tin về các đặc điểm và
c u trúc của bộ dữ liệu Loại dữ liệu này chủ yếu đư c tạo b ng máy và có thể
đư c thêm vào dữ liệu Việc theo dõi siêu dữ liệu r t quan trọng đối với việc xử
l lưu trữ và phân tích dữ liệu lớn vì nó cung c p thông tin về phả hệ của dữ liệu và nguồn gốc của nó trong quá trình xử lý Ví dụ về siêu dữ liệu bao gồm:
Thẻ XML cung cấp ngày x t và ngày tạo tài liệu; Các thu c tính cung cấp
kí t ước tệp v đ phân giải củ ản kỹ thuật số; Các giải pháp dữ liệu lớn
t ư n d a trên siêu dữ liệu đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc [5]
1.1.2 C ệ t ữ ữ ệ ớ
ác dữ liệu thu đư c t các nguồn b n ngoài thường không ở định dạng hoặc
c u trúc c thể xử l ng y đư c Để khắc phục đư c tình trạng này việc sắp xếp lưu trữ dữ liệu là vô cùng cần thiết ử l sắp xếp lưu trữ dữ liệu b o gồm các bước: ọc dữ liệu làm sạch dữ liệu và chu n bị dữ liệu o nhu cầu lưu trữ dữ
Trang 17liệu trong ig t n n c nhiều công nghệ ti n tiến đư c tạo r để hướng tới việc lưu trữ hiệu quả và c khả năng mở rộng c o [5]
ụm iệu ust rs
Trong điện toán, một cụm là một tập h p các máy chủ hoặc các nút đư c liên kết chặt chẽ Các máy chủ này thường có cùng phần cứng và đư c kết nối với nhau thông qua một mạng để hoạt động như một đơn vị lưu trữ và xử l dữ liệu Mỗi nút trong cụm c các tài nguy n ri ng biệt ch ng hạn như bộ nhớ, bộ xử lý
và ổ cứng Một cụm có thể thực thi một tác vụ b ng cách chia nó thành các phần nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm
ệ thống ưu tr i hệ thống ưu tr i ph n tán
ệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương pháp lưu trữ và sắp xếp dữ liệu tr n thiết bị lưu trữ (ổ đ fl sh ổ cứng ) ile (tệp) là một đơn vị lưu trữ dữ liệu nhỏ nh t đư c quản l bởi hệ thống file ề mặt logic hệ thống file c c u trúc như một cây thư mục ác hệ điều hành sử dụng hệ thống file để lưu trữ và truy xu t dữ liệu cho các ứng dụng ỗi một hệ điều hành c thể c một hoặc nhiều hệ thống file v dụ hệ thống file T tr n hệ điều hành icrosoft indows và hệ thống file T trên Linux
ột hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống file c thể lưu trữ các file (tệp) c dung lư ng lớn đư c phân tán đều tr n các nút củ cụm dữ liệu cho ph p các file đư c truy cập t nhiều vị tr khác
nh u dụ hệ thống file phân tán củ oogle ( ) và hệ thống file phân tán Hadoop (HDFS) [5]
ơ s iệu h ng quan hệ on-SQL)
ơ sở dữ liệu on- là không qu n hệ c khả năng mở rộng c o
t nh chịu lỗi và đư c thiết kế đặc biệt cho dữ liệu không c c u trúc hoặc bán
c u trúc on- này thường đư c cung c p gi o diện truy v n và
c thể đư c gọi t b n trong ứng dụng on- c n c khả năng hỗ tr các truy v n c c u trúc ( )
CSDL Non-SQL có thể đư c phân thành bốn loại dự tr n cách chúng lưu trữ dữ liệu như trong ình 1.1 – 1.4: ạng key-value (khóa-giá trị); ạng document (tài liệu); ạng column-family; ạng gr ph (đồ thị) [5]
Trang 18Hình 1.1 M t ví dụ về lưu trữ ạn y-value
Hình 1.2 M t ví dụ về lưu trữ ạn o um nt
Hình 1.3 M t ví dụ về lưu trữ ạn olumn-family
Hình 1.4 M t ví dụ về lưu trữ ạn r p
Ph n đoạn iệu har ing
hân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ng ng t một tập dữ liệu lớn thành một tập h p các bộ dữ liệu nhỏ hơn dễ quản l hơn đư c gọi là phân đoạn ác phân đoạn đư c phân phối trên nhiều nút trong đ mỗi một nút là máy chủ Mỗi phân đoạn đư c lưu trữ trên một nút riêng biệt và mỗi nút chỉ chịu trách nhiệm cho dữ liệu đư c lưu trữ tr n đ ỗi phân đoạn c
Trang 19cùng một lư c đồ (schema) và t t cả các phân đoạn đều đại diện cho một bộ dữ liệu hoàn chỉnh [5]
iệc xử l phân đoạn dữ liệu thường trong suốt với các máy client phân đoạn
dữ liệu cho ph p phân phối tải xử l tr n nhiều nút (node) để c khả năng mở rộng lưu trữ dữ liệu theo chiều ng ng Đây là phương pháp để tăng năng lực củ hệ thống b ng cách th m các tài nguy n (node) hi đ mỗi một node chỉ chịu trách nhiệm cho một phần củ toàn bộ tập dữ liệu do vậy thời gi n đọc ghi đư c cải thiện r t nhiều ột l i ch khác củ phân đoạn dữ liệu là khả năng chịu lỗi Trong trường h p một node bị lỗi chỉ c dữ liệu tr n node đ bị ảnh hưởng [5]
Sao ưu iệu pi ication
o lưu dữ liệu là quá trình tạo r nhiều bản s o cho một tập dữ liệu n m ở
tr n nhiều node o lưu dữ liệu cung c p khả năng mở rộng và t nh khả dụng
củ dữ liệu do đư c lưu tr n nhiều node khác nh u hả năng chịu đư c lỗi
c ng đư c cải thiện do c dự ph ng dữ liệu – dữ liệu không bị m t đi khi một node ri ng l bị lỗi iện n y c 02 mô hình s o lưu dữ liệu là s o lưu chủ – tớ (master-slave) và s o lưu ng ng hàng (peer-to-peer) [5]
guyên P onsist ncy vai a i ity an Partition to ranc
Nguyên l [5] còn
đư c gọi là nguy n l Brewer, thể
hiện với ba ràng buộc liên quan
đến các hệ thống cơ sở dữ liệu
phân tán đ là t nh nh t quán (
onsistency) độ khả dụng
( v il bility) và ngưỡng phân
vùng ( rtition toler nce)
guy n l n i r ng một hệ thống
cơ sở dữ liệu phân tán, chạy trên
một cụm, chỉ có thể đáp ứng h i
trong ba thuộc tính sau:
Hình 1.5 Sơ đồ Venn - định lý CAP
+ Tính nh t quán:Việc đọc t b t kỳ nút nào đều c dữ liệu đầu r như nh u + Tính khả dụng: Yêu cầu đọc/ghi sẽ luôn đư c xác nhận dưới hai dạng: thành công hay th t bại
Trang 20+ gưỡng phân vùng: Hệ thống cơ sở dữ liệu có thể chịu đựng đư c m t điện liên lạc chia cụm thành nhiều silo và v n có thể phục vụ các yêu cầu đọc/ghi
guyên t c thi t
ACID là một nguyên tắc thiết kế cơ sở dữ liệu li n qu n đến quản lý giao dịch Nó là t viết tắt củ t nh nguy n tử ( tomicity) t nh nh t quán ( onsistency) độ cách ly ( sol tion) và độ bền ( ur bility)
ACID là một phương pháp quản l các gi o dịch đồng thời kiểm soát thông
qu kh bản ghi (record locks) để đảm bảo tính nh t quán đư c duy trì
là phương pháp truyền thống để quản l cơ sở dữ liệu giao dịch trong các hệ thống quản l cơ sở dữ liệu quan hệ (RDBMS)
+ T nh nguy n tử đảm bảo r ng t t cả các gi o dịch sẽ luôn luôn thành công hoặc th t bại hoàn toàn Nói cách khác, không có giao dịch một phần + Tính nh t quán đảm bảo r ng dữ liệu phải luôn luôn phù h p với định dạng để c thể đư c ghi đư c vào ột CSDL ở trạng thái nh t quán sẽ v n ở trạng thái nh t quán sau khi giao dịch thành công
+ Độ cách ly đảm bảo r ng kết quả của một giao dịch đ ng thực hiện không thể ảnh hưởng bởi một gi o dịch khác cho đến khi gi o dịch đ hoàn thành
+ Độ bền đảm bảo r ng kết quả của một gi o dịch là v nh viễn Nói cách khác, một khi giao dịch đã đư c thực hiện, nó không thể đư c khôi phục
dù cho hệ thống c thể xảy r lỗi [5]
1.1.3 C ệ ề xử ý ữ ệ ớ
Xử lý giao dịch trực tuy n (OLTP)
T là một hệ thống phần mềm xử l dữ liệu theo hướng gi o dịch Thuật ngữ gi o dịch trực tuyến dùng để chỉ các hành động xử l theo hướng thời gi n thực (re l time) ữ liệu đư c lưu giữ trong hệ thống T đư c chu n h cơ bản c c u trúc và là đầu vào cho các xử l phân t ch
Các truy v n đư c xử l trong hệ thống OLTP bao gồm các thao tác chèn, xóa và cập nhật đơn giản với thời gian phản hồi mức mili giây dụ bao gồm
hệ thống đặt vé, ngân hàng và hệ thống điểm bán hàng [5]
* Xử lý phân tích trực tuy n (OLAP)
Các hệ thống xử lý phân tích trực tuyến ( ) đư c sử dụng để xử lý các truy v n phân tích dữ liệu OLAP là một phần không thể thiếu củ kh i phá
dữ liệu và học máy c li n qu n đến BigData ở chỗ chúng có thể đ ng
Trang 21vai trò là nguồn dữ liệu đầu vào c ng như nguồn dữ liệu đầu r củ igData húng đư c sử dụng trong phân tích ch n đoán phân t ch dự đoán và phân t ch
đề xu t Các hệ thống OLAP thực hiện các truy v n phức tạp, dài hạn đối với cơ
sở dữ liệu đ chiều có c u trúc đư c tối ưu h để thực hiện các phân tích nâng cao
ệ thống lưu trữ dữ liệu lịch sử dưới dạng không đư c chu n h để
hỗ tr khả năng báo cáo nh nh c ng c khả năng lưu trữ các dữ liệu này dưới dạng c u trúc đ chiều để đáp ứng các truy v n phức tạp dự tr n mối qu n
hệ dữ liệu [5]
* Trích xuất iệu T
Tr ch xu t dữ liệu ( T - xtr ct Tr nsform o d) là quá trình chuyển tải t
hệ thống nguồn đến hệ thống đ ch ệ thống nguồn ở đây c thể là tệp hoặc ứng dụng Tương tự hệ thống đ ch c thể là hoặc các hệ thống lưu trữ khác T là các xử l ch nh trong kho dữ liệu ( t w rehouse) Trong Big t T đư c sử dụng để chuyển đổi giữ các loại dữ liệu khác nh u ình 1.6 cho th y dữ liệu tr ch xu t đư c l y t các nguồn khác nh u đư c chuyển đổi trước khi đư c đư vào hệ thống đ ch [5]
Hình 1.6 M t quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển
đổ nó để tải vào m t hệ thốn đí uy n ất
Xử lý d liệu song song
Xử lý dữ liệu song song là việc chi một nhiệm vụ lớn hơn thành nhiều nhiệm vụ nhỏ hơn chạy đồng thời với mục ti u là giảm thời gi n thực hiện ặc dù cơ chế xử
lý dữ liệu song song có thể đạt đư c thông qua nhiều máy đư c nối mạng nhưng
Trang 22thông thường đư c áp dụng trong phạm vi một máy chủ c nhiều bộ xử lý hoặc l i mỗi một bộ xử l sẽ thực hiện một tác vụ khác nh u ( ình 1.7) [5]
Hình 1.7 M t tác vụ có thể được chia thành ba tác vụ phụ được th c thi song
song trên ba b xử lý khác nhau trong cùng m t máy
Xử lý d liệu phân tán
Xử lý dữ liệu phân tán có liên quan chặt chẽ với xử lý dữ liệu song song trong đ áp dụng cùng một nguyên tắc "chi để trị" Tuy nhi n xử lý dữ liệu phân tán luôn đạt đư c thông qua các máy riêng biệt đư c nối mạng với nhau thành một cụm Trong Hình 1.8, một tác vụ đư c chia thành ba nhiệm vụ s u đ
đư c thực hiện trên ba máy khác nhau chia s một công tắc vật lý [5]
Hình 1.8 M t ví dụ về xử lý dữ liệu phân tán
ử iệu a oop
Hadoop là nền tảng mã nguồn mở để lưu trữ dữ liệu quy mô lớn và xử lý dữ liệu tương th ch với phần cứng doop đã trở thành một nền tảng công nghiệp thực sự cho các giải pháp BigData Nó có thể đư c sử dụng như một công cụ tr ch
xu t chuyển đổi và lưu trữ dữ liệu T ( xtr ct Tr nform tion o ding) goài
r c n là một công cụ phân t ch để xử lý một lư ng lớn dữ liệu có c u trúc, bán c u trúc và không c u trúc doop thiết lập cơ chế p educe để xử l dữ liệu ( ình 1.9) [5]
Trang 23+ Xử l ữ l ệu t o l t pro ss n , c n đư c gọi là xử lý ngoại
tuyến (offline) là việc xử lý dữ liệu với số lư ng lớn c độ trễ xử l c o ình thức xử l này thường li n qu n đến một lư ng lớn dữ liệu với việc đọc/ghi tuần tự hoặc chỉ đọc chỉ ghi ác truy v n có thể phức tạp và liên
qu n đến nhiều ph p nối ác hệ thống chạy cơ chế như h y các công cụ phân t ch đư c định hướng theo lô vì chúng là các tác vụ đ i hỏi nhiều khả năng đọc với khối lư ng dữ liệu lớn
(online) là xử l tương tác dữ liệu c độ trễ th p ình thức xử l dữ liệu này li n qu n đến một lư ng nhỏ dữ liệu với việc đọc và ghi ng u nhiên Khối lư ng công việc giao dịch bao gồm đọc/ghi ng u nhi n c số ph p nối (joins) t hơn so với xử l dữ liệu theo lô [5]
ử iệu th o cụm ust r
Theo cùng cách mà các cụm cung c p hỗ tr cần thiết để tạo ra các giải pháp lưu trữ có thể mở rộng theo chiều ngang, các cụm c ng cung c p cơ chế cho phép xử lý dữ liệu phân tán với khả năng mở rộng tuyến tính Vì các cụm có khả năng mở rộng cao, chúng cung c p một môi trường l tưởng để xử lý Dữ liệu lớn vì các bộ dữ liệu lớn có thể đư c chia thành các bộ dữ liệu nhỏ hơn và s u
đ đư c xử lý song song theo cách phân tán Khi tận dụng một cụm, bộ dữ liệu BigData có thể là chế độ hàng loạt (batch) hoặc chế độ thời gian thực (real time)
Trang 24Một l i ích bổ sung của các cụm là chúng cung c p dự phòng và khả năng chịu lỗi vốn có, vì chúng bao gồm các nút riêng biệt về mặt vật lý Dự phòng và khả năng chịu lỗi cho phép xử lý và phân tích khả năng phục hồi xảy ra nếu xảy
ra lỗi mạng hoặc nút Do sự biến động của nhu cầu xử l đư c đặt trong môi trường Dữ liệu lớn, tận dụng các dịch vụ cơ sở hạ tầng máy chủ đám mây hoặc môi trường phân tích sẵn sàng làm xương sống của cụm, có thể cảm nhận đư c
do tính linh hoạt và mô hình tính toán dựa trên tiện ích của nó [5]
1.1.4 C ệ p t ữ ệ t ữ ệ
hân t ch dữ liệu ( t n lysis) là quá trình xử l dữ liệu để tìm r các sự kiện các mối qu n hệ m u (p tterns) dữ liệu hiểu biết dữ liệu và xu thế ục tiêu củ phân t ch dữ liệu là để hỗ tr cho việc r quyết định tốt hơn
ử l phân t ch dữ liệu ( t n lytics) là một thuật ngữ rộng hơn khái niệm phân t ch dữ liệu ( t n lysis) uá trình này là việc quản l v ng đời dữ liệu b o gồm: Thu thập dữ liệu; àm sạch dữ liệu; Tổ chức dữ liệu; ưu trữ dữ liệu; hân t ch và quản l dữ liệu Trong l nh vực ig t phân t ch dữ liệu c n cho ph p phát triển các phương pháp dự tr n nền tảng và công nghệ phân tán
c khả năng mở rộng c o c khả năng phân t ch một khối lư ng dữ liệu lớn
t các nguồn khác nh u
Hình 1.10.Giá trị v đ phức tạp t n từ phân tích mô tả đến đề xuất
hân t ch dữ liệu cho ph p r quyết định dự tr n dữ liệu thực tế c kho học
n không chỉ đơn thuần dự vào kinh nghiệm và trực giác trong quá khứ thể phân thành 04 loại phân t ch dữ liệu: hân t ch mô tả (descriptive n lytics); hân t ch ch n đoán (di gnostic n lytics); hân t ch dự báo (predictive
analytics); hân t ch đề xu t (prescriptive n lytics) [5]
Trang 25Ph n tích m t :
ác thống k cho th y r ng c khoảng 80 kết quả phân t ch đư c dưới dạng phân t ch mô tả Đây là dạng phân t ch c giá trị th p nh t chỉ cần y u cầu kỹ năng phân t ch tương đối cơ bản hân t ch mô tả đư c thực hiện để trả lời các
sự kiện đã xảy r các câu hỏi m u để phân t ch mô tả c dạng như s u:
+ o nh số bán hàng trong 12 tháng đã qu là b o nhi u?
+ o hồng hàng tháng kiếm đư c t mỗi đại l bán hàng?
hân t ch mô tả thường đư c thực hiện thông qu báo cáo hoặc dưới dạng bảng shbo rd (đồ thị hoặc biểu đồ) ác truy v n đư c thực hiện t kho dữ liệu củ do nh nghiệp dụ như hệ thống quản l khách hàng hệ thống hoạch định nguồn lực [5]
Ph n tích ch n đoán:
hân t ch ch n đoán nh m xác định nguy n nhân củ hiện tư ng xảy r trong quá khứ b ng cách sử dụng các câu hỏi tập trung vào l do xảy r sự kiện ác dạng câu hỏi m u như:
+ Tại s o do nh thu u 2 th p hơn do nh thu u 1
+ Tại s o c tỷ lệ gi tăng sự cố mạng trong b tháng qu
hân t ch ch n đoán cung c p nhiều thông tin giá trị hơn phân t ch mô tả do vậy n y u cầu kỹ năng phân t ch c o hơn ết quả phân t ch ch n đoán thông
qu các công cụ trực qu n giúp người dùng xác định đư c xu thế ác truy v n
dữ liệu trong phân t ch ch n đoán c ng phức tạp hơn so với phân t ch mô tả n
đư c thực hiện tr n dữ liệu đ chiều đư c lưu giữ trong các hệ thống phân t ch [5]
Ph n tích ự áo ự đoán :
hân t ch dự đoán dùng để xác định kết quả củ một sự kiện nào đ sẽ xảy r trong tương l i i một cách ch nh xác hơn phân t ch dự đoán là mô hình dự vào sự kiện đã xảy r trong quá khứ với một điều kiện cụ thể để xác định sự kiện tương tự xảy r trong tương l i ếu các điều kiện cơ bản này th y đổi thì mô hình dự báo phải đư c cập nhật ác câu hỏi m u cho phân t ch dự báo c dạng
wh t-if v dụ:
+ Tỷ lệ sống của bệnh nhân sẽ là bao nhiêu nếu Thuốc đư c dùng thay vì Thuốc A?
Trang 26+ Nếu khách hàng đã mu ản ph m và cơ hội mà họ c ng sẽ mua Sản
ph m C là gì?
Loại phân t ch này li n qu n đến việc sử dụng các bộ dữ liệu lớn và các kỹ thuật phân tích dữ liệu khác nhau Nó cung c p thông tin c giá trị hơn và đ i hỏi một bộ kỹ năng nâng c o hơn so với phân t ch mô tả và phân t ch ch n đoán Các công cụ thường sử dụng cho phân t ch dự đoán phức tạp, tr u tư ng tuy nhi n c thể cung c p gi o diện thân thiện với người dùng [5, 9]
Ph n tích đề xuất:
hân t ch đề xu t đư c xây dựng dự tr n kết quả củ phân t ch dự báo b ng cách liệt k các hành động cần phải thực hiện hân t ch này không chỉ tập trung vào việc lự chọn hành động nào là tốt nh t mà c n trả lời câu hỏi tại s o? o
đ loại phân t ch này thường đư c sử dụng để đạt đư c các l i thế và giảm thiểu các rủi ro củ do nh nghiệp ác dạng câu hỏi m u cho loại phân t ch này như:
+ Trong số ba loại thuốc, loại thuốc nào mang lại kết quả tốt nh t?
+ Khi nào là thời điểm tốt nh t để giao dịch một cổ phiếu cụ thể?
hân t ch đề xu t cung c p tri thức nhiều giá trị nh t trong các loại phân t ch
kể tr n do vậy n y u cầu các kỹ năng phân t ch ti n tiến kết h p với các phần mềm công cụ chuy n dụng thể n i phân t ch đề xu t đã chuyển dịch t việc giải th ch nguy n nhân s ng tư v n hành động và n c thể mô phỏng nhiều kịch bản xảy r khác nh u
Loại phân tích này kết h p dữ liệu nội bộ với dữ liệu bên ngoài Dữ liệu nội
bộ có thể bao gồm dữ liệu bán hàng hiện tại và lịch sử, thông tin khách hàng, dữ liệu sản ph m và quy tắc kinh doanh Dữ liệu bên ngoài có thể bao gồm dữ liệu truyền thông xã hội, dự báo thời tiết và dữ liệu nhân kh u học do chính phủ sản
xu t hân t ch đề xu t li n qu n đến việc sử dụng các quy tắc kinh doanh và một lư ng lớn dữ liệu b n trong và b n ngoài để mô phỏng các kết quả và định hướng hành động tốt nh t [5]
Trang 271.2 HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
1.2.1 C ệ t ữ dữ liệu trong BigData
1.2.1.1 lưu trữ trê đĩa
ưu trữ tr n đ thường sử dụng ổ đ cứng chi phí th p để lưu trữ lâu dài
ưu trữ tr n đ c thể đư c thực hiện thông qua hệ thống tệp phân tán hoặc cơ
sở dữ liệu
Hệ thống ưu tr tệp phân tán
Các hệ thống tệp phân tán hỗ tr lưu trữ dữ liệu không c lư c đồ less, cung c p khả năng dự phòng và tính sẵn sàng cao b ng cách sao chép dữ liệu vào nhiều vị trí khác nh u Một thiết bị lưu trữ đư c triển khai với hệ thống tệp phân tán cung c p khả năng truy cập nhanh, có khả năng lưu trữ các bộ dữ liệu lớn với dữ liệu bán c u trúc và không c u trúc Đồng thời, nó cung c p khả năng đọc/ghi nhanh, giải quyết đặc tính vận tốc của Dữ liệu lớn
(schema-Một hệ thống tệp phân tán không l tưởng cho các bộ dữ liệu có số lư ng lớn tệp nhỏ vì điều này tạo ra hoạt động tìm kiếm đ quá mức, làm chậm quá trình truy cập dữ liệu tổng thể Do những hạn chế này, hệ thống tệp phân tán hoạt động tốt nh t với ít tệp hơn nhưng lớn hơn đư c xử l tuần tự Nhiều tệp nhỏ hơn thường đư c kết h p thành một tệp lớn duy nh t để cho ph p lưu trữ và xử
lý tối ưu Điều này cho phép các hệ thống tệp phân tán có hiệu su t tăng khi dữ liệu phải đư c truy cập trong chế độ truyền phát mà không c đọc và ghi ng u nhiên
Thiết bị lưu trữ hệ thống tệp phân tán phù h p với bộ dữ liệu lớn của dữ liệu thô Ngoài ra, đây là lự chọn lưu trữ t tốn k m để lưu trữ lư ng lớn dữ liệu trong một khoảng thời gian dài cần duy trì trực tuyến Điều này là do có thể bổ sung các bộ đ cứng vào cụm mà không cần giảm tải dữ liệu để lưu trữ dữ liệu ngoại tuyến Cần lưu r ng các hệ thống tệp phân tán không cung c p khả năng tìm kiếm nội dung của các tệp dưới dạng tiêu chu n [5]
ệ thống ưu tr quan hệ RDBMS
Các hệ thống quản lý RDBMS (Relational DB management systems) r t tốt
để xử lý khối lư ng công việc giao dịch li n qu n đến một lư ng nhỏ dữ liệu với các thuộc t nh đọc/ghi ng u nhiên Các RDBMS tuân thủ nguy n tắc thiết kế
do vậy các hệ thống (chịu giới hạn bởi một nút) không hỗ tr
t nh dự phòng và khả năng chịu lỗi [5]
Trang 28Để xử lý khối lư ng lớn dữ liệu đến với tốc độ nh nh cơ sở dữ liệu quan hệ thường cần phải mở rộng quy mô Tuy nhi n các hệ thống chỉ c cơ chế phân chi theo chiều dọc, không chia tỷ lệ theo chiều ng ng đây là một như c điểm lớn Điều này làm cho các không l tưởng để lưu trữ dữ liệu lâu dài đư c t ch l y theo thời gi n ặt khác qu n hệ thường yêu cầu dữ liệu tuân thủ lư c đồ o đ các hệ thống khi lưu trữ dữ liệu bán c u trúc và không c c u trúc phải thực hiện gián tiếp Điều này phát sinh
độ trễ c o độ trễ này làm cho qu n hệ không l tưởng để lưu trữ dữ liệu tốc độ cao trong khi cần một thiết bị lưu trữ CSDL có tính sẵn sàng cao với khả năng ghi dữ liệu nhanh Do những như c điểm đ truyền thống thường không hữu ch như thiết bị lưu trữ ch nh trong môi trường giải pháp Dữ liệu lớn [5]
ệ thống ưu tr Non-SQL
Sự xu t hiện củ các hệ thống lưu trữ Non-SQL chủ yếu đáp ứng cho các t nh
ch t đặc trưng củ igData (Volume, Velocity, Variety) Yêu cầu lưu trữ của khối lư ng dữ liệu ngày càng tăng y u cầu sử dụng cơ sở dữ liệu có khả năng
mở rộng cao trong khi v n giảm chi phí cho doanh nghiệp để duy trì tính cạnh
tr nh ác hệ thống lưu trữ Non- đáp ứng yêu cầu này b ng cách cung c p khả năng mở rộng quy mô trong khi sử dụng các máy chủ hàng hóa r tiền Dòng dữ liệu nh nh đ i hỏi cơ sở dữ liệu với khả năng ghi dữ liệu truy cập
nh nh ác hệ thống lưu trữ on-SQL cho phép ghi nhanh b ng cách sử dụng nguyên tắc lư c đồ khi đọc thay vì nguyên tắc ghi tr n lư c đồ Có tính sẵn sàng
c o các hệ thống này c thể đảm bảo độ trễ khi xảy ra lỗi node/mạng ệ thống lưu trữ cần xử l các định dạng dữ liệu khác nhau bao gồm tài liệu, email, hình ảnh và video và dữ liệu không đầy đủ ệ thống lưu trữ Non-SQLcó thể lưu trữ các dạng khác nhau dữ liệu bán c u trúc và không c u trúc goài r hệ thống này c n hỗ tr cho dữ liệu không c lư c đồ
ăn cứ vào dạng dữ liệu lưu trữ hệ thống lưu trữ dữ liệu on-SQL đư c phân chi thành 4 loại: ệ thống lưu trữ dữ liệu dạng ey- lue ocument olumn-f mily và r ph [5]
ệ thống ưu tr NewSQL
Các thiết bị lưu trữ Non-SQL có khả năng mở rộng cao, khả dụng, chịu lỗi và nhanh chóng cho các hoạt động đọc/ghi Tuy nhiên, chúng không cung c p cùng
Trang 29một giao dịch và hỗ tr nh t quán như đư c thể hiện bởi các RDBMS tuân thủ ACID Theo mô hình BASE, các thiết bị lưu trữ Non-SQL chỉ cung c p tính
nh t quán ở trạng thái xử ly cuối cùng thay vì tính nh t quán ngay lập tức Do
đ chúng không th ch h p để sử dụng khi thực hiện các hệ thống giao dịch quy
ơ sở dữ liệu New SQL có thể đư c sử dụng để phát triển các hệ thống OLTP với khối lư ng giao dịch r t lớn, ví dụ như một hệ thống ngân hàng húng c ng c thể đư c sử dụng cho các phân tích thời gian thực, ví dụ như phân tích hoạt động, vì một số triển khai tận dụng lưu trữ trong bộ nhớ So với
hệ thống lưu trữ Non-SQL, thiết bị lưu trữ New SQL cung c p quá trình chuyển đổi dễ dàng hơn t RDBMS truyền thống s ng cơ sở dữ liệu có khả năng mở rộng cao do hỗ tr SQL Ví dụ về cơ sở dữ liệu NewSQL bao gồm VoltDB, NuoDB và InnoDB [5]
1.2.1.2 lưu trữ trong bộ nhớ (In-Memory Databases)
Một thiết bị lưu trữ trong bộ nhớ thường sử dụng RAM, bộ nhớ chính của máy t nh làm phương tiện lưu trữ để cung c p truy cập dữ liệu nhanh Dung
lư ng ngày càng tăng và chi ph giảm, cùng với tốc độ đọc/ghi ngày càng tăng của ổ cứng đã giúp phát triển các giải pháp lưu trữ dữ liệu trong bộ nhớ
ưu trữ dữ liệu trong bộ nhớ giúp loại bỏ độ trễ của I/O củ đ và thời gian truyền dữ liệu giữa bộ nhớ chính và ổ cứng Việc giảm tổng thể độ trễ đọc/ghi
dữ liệu này giúp xử lý dữ liệu nh nh hơn nhiều ung lư ng thiết bị lưu trữ memory có thể đư c tăng l n một cách ồ ạt b ng cách mở rộng theo chiều ngang của cụm đ ng lưu trữ thiết bị lưu trữ trong bộ nhớ
in-Bộ nhớ dựa trên cụm cho ph p lưu trữ một lư ng lớn dữ liệu, bao gồm cả bộ
dữ liệu BigData, có thể đư c truy cập nh nh hơn đáng kể khi so sánh với thiết bị lưu trữ tr n đ Điều này làm giảm đáng kể thời gian thực hiện chung của phân tích Dữ liệu lớn do đ cho ph p phân t ch ữ liệu lớn theo thời gian thực
Trang 30Hình 1.11 minh họa một so sánh thời gian truy cập giữa các thiết bị lưu trữ trong bộ nhớ và đ cứng Việc đọc tuần tự 1 MB dữ liệu t thiết bị lưu trữ trong
bộ nhớ m t khoảng 0,25 ms, trong khi cùng một lư ng dữ liệu t thiết bị lưu trữ
tr n đ m t khoảng 20 ms Điều này chứng tỏ r ng việc đọc dữ liệu t bộ lưu trữ bộ nhớ trong nh nh hơn khoảng 80 lần so với lưu trữ tr n đ
Hình 1.11 Thiết bị lưu trữ trong b nhớ có tố đ truyền dữ liệu n n ơn 8
lần so với thiết bị lưu trữ trên đĩ
Thiết bị lưu trữ trong bộ nhớ cho phép phân tích trong bộ nhớ dùng để phân tích dữ liệu trong bộ nhớ Phân tích trong bộ nhớ cho phép phân tích hoạt động
và BI hoạt động thông qua thực hiện nhanh các truy v n và thuật toán
Về cơ bản lưu trữ trong bộ nhớ cho phép hiểu đư c luồng dữ liệu nhanh trong môi trường Dữ liệu lớn (đặc tính vận tốc) b ng cách cung c p phương tiện lưu trữ tạo điều kiện cho việc tạo thông tin chi tiết theo thời gian thực Điều này
hỗ tr đư r quyết định nh nh ch ng để giảm thiểu đe dọa hoặc tận dụng cơ hội
Thiết bị lưu trữ trong bộ nhớ Dữ liệu lớn đư c triển khai trên một cụm, cung
c p tính sẵn sàng và dự ph ng c o o đ khả năng mở rộng theo chiều ngang
có thể đạt đư c b ng cách thêm nhiều nút hoặc bộ nhớ Khi so sánh với thiết bị lưu trữ tr n đ thiết bị lưu trữ trong bộ nhớ đắt tiền vì chi phí bộ nhớ c o hơn
so với thiết bị lưu trữ dự tr n đ
Mặc dù máy 64 bit có thể sử dụng 16 exabyte bộ nhớ, do các giới hạn vật lý của máy, ch ng hạn như số lư ng khay nhớ, bộ nhớ đư c cài đặt t hơn đáng kể
Để nhân rộng ra, nó không chỉ là việc bổ sung thêm bộ nhớ mà còn là sự bổ sung các nút đư c yêu cầu mười một giới hạn bộ nhớ cho mỗi nút Điều này làm tăng chi ph lưu trữ dữ liệu
Trang 31Ngoài việc đắt tiền, các thiết bị lưu trữ trong bộ nhớ không cung c p cùng mức hỗ tr cho việc lưu trữ dữ liệu lâu bền Yếu tố giá ảnh hưởng hơn nữ đến khả năng c thể đạt đư c của thiết bị trong bộ nhớ khi so sánh với thiết bị lưu trữ tr n đ o đ chỉ có dữ liệu cập nhật và mới nh t có giá trị nh t đư c lưu trong bộ nhớ, dữ liệu c đ đư c thay thế b ng dữ liệu mới hơn mới hơn
Tùy thuộc vào cách n đư c triển khai, một thiết bị lưu trữ trong bộ nhớ có thể hỗ tr lưu trữ không c lư c đồ hoặc lưu trữ nhận thức lư c đồ Hỗ tr lưu trữ không c lư c đồ đư c cung c p thông qu lưu trữ dữ liệu dựa trên khóa-giá trị
Các thiết bị lưu trữ trong bộ nhớ có thể đư c triển kh i như: ông nghệ lưu trữ và công nghệ lưu trữ IMDB Mặc dù cả hai công nghệ này đều sử dụng bộ nhớ làm phương tiện lưu trữ dữ liệu cơ bản nhưng điều làm cho chúng khác biệt là cách lưu trữ dữ liệu trong bộ nhớ [5]
ng nghệ ưu tr iệu M n-Memory Data Grids) lưu trữ dữ liệu
trong bộ nhớ dưới dạng cặp giá trị khóa trên nhiều nút trong đ các kh và giá trị có thể là b t kỳ đối tư ng kinh doanh hoặc dữ liệu ứng dụng nào ở dạng tuần
tự Điều này hỗ tr lưu trữ dữ liệu không c lư c đồ thông qu lưu trữ dữ liệu bán c u trúc hoặc không c c u trúc Truy cập dữ liệu thường đư c cung c p thông qua API như trong hình 1.12 [5]
Hình 1.12 M t ví dụ mô tả việc truy xuất dữ liệu từ IMDG
ng nghệ ưu tr iệu IMDB (In-Memory Databases) sử dụng công
nghệ cơ sở dữ liệu và tận dụng hiệu năng củ để khắc phục các v n đề về
độ trễ thời gian chạy gây ra cho các thiết bị lưu trữ tr n đ như trong hình 1.13:
Trang 32Hình 1.13 M t ví dụ mô tả việc truy xuất dữ liệu từ IMDB
IMDB có thể để lưu trữ dữ liệu có c u trúc (IMDB quan hệ) hoặc có thể tận dụng công nghệ Non-SQL (IMDB không qu n hệ) để lưu trữ dữ liệu bán c u trúc và không c u trúc
Không giống như cung c p quyền truy cập dữ liệu thông qua API, IMDB quan hệ sử dụng ngôn ngữ SQL nên quen thuộc hơn hỗ tr các nhà phân tích dữ liệu hoặc nhà khoa học dữ liệu không có kỹ năng lập trình nâng cao Các IMDB dựa trên Non-SQL thường cung c p quyền truy cập dựa trên API, có thể đơn giản như các th o tác đặt, nhận và xóa Tùy thuộc vào việc triển kh i cơ bản, một số IMDB mở rộng quy mô, trong khi một số khác mở rộng quy mô để đạt đư c khả năng mở rộng
IMDB quan hệ thường có khả năng mở rộng t hơn vì qu n hệ cần hỗ tr các truy v n và giao dịch phân tán trên toàn cụm Một số triển khai IMDB có thể đư c hưởng l i t việc nhân rộng, giúp giải quyết độ trễ xảy ra khi thực hiện các truy v n và giao dịch trong môi trường mở rộng Ví dụ bao gồm Aerospike, MemQuery, Altibase HDB, eXtreme DB và Pivotal GemFire XD [5]
1.2.2 ử lý dữ liệu trong BigData
1.2.2.1 l ữ l u vớ a -Reduce
MapReduce là một mô hình đư c sử dụng rộng rãi cho cơ chế xử lý theo lô
Nó có khả năng mở rộng c o và đáng tin cậy dựa trên nguyên tắc chi để trị cung c p khả năng chịu lỗi và dự phòng tích h p Nó phân chia một v n đề lớn thành một tập h p các v n đề nhỏ hơn c thể đư c giải quyết nhanh chóng MapReduce có nguồn gốc t cả h i mô hình xử l phân tán và song song Đây là
Trang 33một công cụ đư c sử dụng để xử lý các bộ dữ liệu lớn theo mô hình xử lý song song đư c triển khai trên các cụm phần cứng
MapReduce không yêu cầu dữ liệu đầu vào phù h p với b t kỳ mô hình dữ liệu cụ thể nào o đ n c thể đư c sử dụng để xử lý các bộ dữ liệu không có
lư c đồ MapReduce dựa trên tài liệu nghiên cứu củ oogle đư c xu t bản vào đầu năm 2000
Công cụ xử lý MapReduce hoạt động khác so với mô hình xử lý dữ liệu truyền thống Trong mô hình truyền thống, xử lý dữ liệu yêu cầu di chuyển dữ liệu t nút lưu trữ sang nút xử lý chạy thuật toán xử lý dữ liệu Cách tiếp cận này hoạt động tốt cho các bộ dữ liệu nhỏ hơn; Tuy nhiên, với các bộ dữ liệu lớn, việc
di chuyển dữ liệu có thể tốn nhiều chi ph hơn so với việc xử lý dữ liệu hiện tại Với MapReduce, thuật toán xử lý dữ liệu sẽ đư c chuyển đến các nút lưu trữ dữ liệu Thuật toán xử lý dữ liệu thực thi song song trên các nút này do đ loại bỏ
sự cần thiết phải di chuyển dữ liệu Điều này không chỉ tiết kiệm băng thông mạng mà còn giúp giảm đáng kể thời gian xử lý cho các bộ dữ liệu lớn, vì việc
xử lý các khối dữ liệu nhỏ hơn song song nh nh hơn nhiều
p educe thường không phù h p để xử lý Dữ liệu lớn theo thời gian thực MapReduce không thể xử lý dữ liệu theo kiểu tăng dần và chỉ có thể xử lý bộ dữ liệu hoàn chỉnh o đ n y u cầu t t cả dữ liệu đầu vào phải có sẵn toàn bộ trước khi thực hiện công việc xử lý dữ liệu Tuy nhiên, có một số giải pháp c thể cho phép sử dụng MapReduce trong các tình huống xử lý Dữ liệu lớn gần với thời gian thực [5]
1.2.2.2 t v a v u
Một lần xử lý duy nh t của công cụ xử l p educe đư c gọi là công việc MapReduce Mỗi công việc MapReduce bao gồm một nhiệm vụ Map và một nhiệm vụ Reduce và mỗi nhiệm vụ bao gồm nhiều gi i đoạn Hình 1.14 cho th y tác vụ m p và reduce cùng với các gi i đoạn riêng l của chúng [5]
Trang 34Hình 1.14 M t minh họa về công việc MapReduce
* ác tác vụ Map:
- T vụ p m m p : i i đoạn đầu tiên củ p educe đư c gọi là
p trong đ bộ dữ liệu đư c chia thành nhiều phần nhỏ hơn ỗi phần
đư c phân tách thành các bản ghi và đư c gán cho một cặp khóa-giá trị
(key-v lue) Trong đ kh thường là (key-vị trí thứ tự của bản ghi (key-và giá trị là bản ghi hiện tại
- T vụ om n : i chung đầu ra củ hàm p đư c xử l trực tiếp bởi
hàm educe Tuy nhi n thực tế các tác vụ map và các tác vụ reduce chủ yếu chạy tr n các nút khác nh u Điều này đ i hỏi c sự di chuyển dữ liệu giữ các tiến trình m pper và reducer uá trình tr o đổi dữ liệu này có thể tiêu thụ r t nhiều băng thông và trực tiếp góp phần gây ra trễ xử l nh t là đối với các bộ dữ liệu lớn Vì lý do này, công cụ MapReduce cung c p một hàm combine (tùy chọn) để t m tắt đầu ra củ trình m pper trước khi n đư c vào
xử lý bởi bộ reducer
- T vụ rt t on: Trong thực tế nếu có nhiều hơn tác vụ reducer th m gi
tác vụ phân vùng sẽ phân chi đầu ra t bộ mapper hoặc bộ combiner (nếu
c ) thành các phân vùng theo reducer Trong đ số lư ng phân vùng sẽ b ng
số lư ng reducer àm p rtition là gi i đoạn cuối cùng của tác vụ Map Nó trả về đị chỉ của reducer mà một phân vùng cụ thể sẽ đư c gửi đến xử l [5]
* ác tác vụ uc :
- Tác vụ hu fle and Sort (Xáo tr n và s p x p): Đây là gi i đoạn đầu tiên
của tác vụ educe đầu r củ tiến trình rtition thông qu mạng đến các node Reduce dự tr n cặp kh -giá trị Tiếp theo, công cụ MapReduce tự
Trang 35động nhóm và sắp xếp các cặp khóa-giá trị theo các kh để đầu ra chứa một
d nh sách đư c sắp xếp củ các kh đầu vào và các giá trị của chúng có cùng các khóa xu t hiện cùng nhau Cách thức mà các kh đư c nhóm và sắp xếp có thể đư c tùy chỉnh Sự h p nh t này tạo ra một cặp khóa-giá trị duy nh t cho nh m trong đ kh là kh nh m và giá trị là danh sách của
t t cả các giá trị nhóm [5]
- Tác vụ uc : educe là gi i đoạn cuối cùng củ tác vụ educe Tùy thuộc
vào logic do người dùng xác định tác vụ educer sẽ tiếp tục tóm tắt đầu vào của nó hoặc sẽ phát r đầu ra mà không thực hiện b t kỳ th y đổi nào Trong
cả h i trường h p đối với mỗi cặp khóa-giá trị bị Reduce, danh sách các giá trị đư c lưu trữ trong phần giá trị của cặp đư c xử lý và một cặp khóa-giá trị khác đư c tạo r ố lư ng Reducer có thể đư c tùy chỉnh ng c thể có một công việc MapReduce mà không cần Reducer, ví dụ như khi thực hiện lọc dữ liệu ưu r ng chữ k đầu r (kh -giá trị) củ hàm p phải khớp với chữ k đầu vào (kh -giá trị) củ hàm educer Combiner [5]
* M t ví dụ Map uc đơn gi n
ác bước s u đây đư c hiển thị trong Hình 1.15 [5]:
+ Bước 1: Đầu vào (s les txt) đư c chia thành hai phần
+ Bước 2: Hai tác vụ ánh xạ chạy trên hai nút khác nhau, Nút A và Nút B,
trích xu t sản ph m và số lư ng t các bản ghi phân tách tương ứng Đầu
ra t mỗi chức năng bản đồ là một cặp khóa-giá trị trong đ sản ph m là khóa trong khi số lư ng là giá trị
+ Bước 3: Bộ kết h p s u đ thực hiện tổng kết cục bộ số lư ng sản ph m + Bước 4: Vì chỉ có một tác vụ giảm, không có phân vùng đư c thực hiện + Bước 5: Đầu ra t hai tác vụ ánh xạ s u đ đư c sao chép sang nút thứ ba,
Node C, chạy gi i đoạn xáo trộn như một phần của tác vụ rút gọn
+ Bước 6: i i đoạn sắp xếp s u đ nh m các số lư ng giống nhau của
cùng một sản ph m thành một danh sách
+ Bước 7: Giống như bộ kết h p, hàm giảm s u đ tổng h p số lư ng của
t ng sản ph m duy nh t để tạo đầu ra
Trang 36Hình 1.15 M t ví dụ về pR u đ n oạt đ ng
1.2.3 Kỹ thuật t ata ệ a
Ph n tích định ượng (Quantiative)
Phân t ch định lư ng là một kỹ thuật phân tích dữ liệu tập trung vào việc định
lư ng các m u và mối tương qu n đư c tìm th y trong dữ liệu Dựa trên thực tiễn thống kê, kỹ thuật này li n qu n đến việc phân tích một số lư ng lớn các quan sát t bộ dữ liệu Vì k ch thước m u lớn, kết quả có thể đư c áp dụng một cách tổng quát cho toàn bộ tập dữ liệu Kết quả phân t ch định lư ng là số liệu tuyệt đối và do đ c thể đư c sử dụng để so sánh Ví dụ, một phân t ch định
lư ng về doanh số bán kem có thể phát hiện ra r ng nhiệt độ tăng 5 độ làm tăng doanh số bán kem lên 15% [5]
Ph n tích định tính (Quanliative)
hân t ch định t nh là một kỹ thuật phân tích dữ liệu tập trung vào việc mô tả
b ng t ngữ các ph m ch t dữ liệu khác nhau So với phân tích dữ liệu định
lư ng phân t ch định t nh c m u phân tích nhỏ hơn nhưng c chiều sâu hơn Các kết quả phân tích này không thể đư c khái quát cho toàn bộ tập dữ liệu do
k ch thước m u nhỏ húng c ng không thể đư c đo b ng số hoặc đư c sử dụng
để so sánh số Ví dụ, một phân tích về doanh số bán kem có thể tiết lộ r ng số liệu bán hàng củ tháng 5 không c o như tháng 6 ác kết quả phân tích chỉ nói
r ng các số liệu "không cao b ng" và không cung c p sự khác biệt về con số [5]
Trang 37Khai thác d liệu (Data mining)
Kh i thác dữ liệu c n đư c gọi là khai phá dữ liệu, là một hình thức phân tích
dữ liệu chuyên biệt nhắm vào các bộ dữ liệu lớn i n qu n đến phân tích dữ liệu lớn, khai thác dữ liệu đề cập đến các kỹ thuật tự động, dựa trên phần mềm, sàng lọc qua các bộ dữ liệu lớn để xác định các m u và xu hướng Cụ thể, nó
li n qu n đến việc trích xu t các m u n hoặc chư biết trong dữ liệu với mục
đ ch xác định các m u chư biết trước đ h i thác dữ liệu là cơ sở cho các phân tích dự đoán và kinh do nh thông minh (BI) [5]
Phân tích thống kê (Statistical Analysis)
hân t ch dữ liệu thống k sử dụng các phương pháp thống kê dựa trên các công thức toán học như một phương tiện để phân tích dữ liệu Phân tích thống
k thường là định lư ng nhưng c ng c thể là định tính Loại phân tích này thường đư c sử dụng để mô tả các bộ dữ liệu thông qua tóm tắt, ch ng hạn như cung c p giá trị trung bình phương s i hoặc phương thức thống k li n qu n đến tập dữ liệu c ng c thể đư c sử dụng để suy ra các m u và mối quan hệ trong tập dữ liệu, ch ng hạn như hồi quy và tương qu n b loại phân tích
thống k là Thử nghiệm A/B (A/B Testing), Tươn qu n orr l t on v Hồi
quy (Regression)[5]
Học máy (Machine Learning)
on người r t giỏi trong việc phát hiện các mô hình và mối quan hệ trong dữ liệu Tuy nhiên, con người không thể xử l một lư ng lớn dữ liệu Mặt khác, máy móc r t giỏi trong việc xử lý một lư ng lớn dữ liệu một cách nhanh chóng, nhưng chỉ khi chúng biết cách Nếu kiến thức củ con người có thể đư c kết h p với tốc độ xử lý của máy móc, máy móc sẽ có thể xử lý một lư ng lớn dữ liệu
mà không cần nhiều sự can thiệp củ con người Đây là khái niệm cơ bản của
máy học iện tại c thể phân thành 04 loại kỹ thuật học máy như ỹ t uật p n loại (Classification), ỹ t uật p n ụm (Clustering), ỹ t uật xử l ữ l ệu
ngoại lai (Outlier Detection v ỹ t uật xử l lọ ữ l ệu lt r n
Phân tích ng nghĩa (Semantic Analysis)
Một đoạn dữ liệu văn bản hoặc lời nói có thể mang những ngh khác nh u trong các ngữ cảnh khác nhau, trong khi một câu hoàn chỉnh có thể giữ nguyên ngh của nó, ngay cả khi đư c c u trúc theo những cách khác nh u Để các máy trích xu t thông tin có giá trị, dữ liệu văn bản và lời nói cần đư c các máy hiểu
Trang 38theo cách tương tự như con người Phân tích ngữ ngh để trích xu t thông tin có ngh t dữ liệu văn bản và lời nói iện c các loại phân tích ngữ ngh s u:
Xử lý ngôn ngữ tự nhiên (Natural Language Processing); hân t ch văn bản (Text Analytics); Phân tích tình cảm (Sentiment Analysis).[5]
Ph n tích trực quan isua na ysis
Phân tích trực quan là một hình thức phân tích dữ liệu li n qu n đến biểu diễn dữ liệu đồ họ để cho phép hoặc nâng cao nhận thức trực quan của nó Dựa trên tiền đề r ng con người có thể hiểu và rút ra kết luận t đồ họ nh nh hơn t văn bản, phân tích trực qu n đ ng v i tr như một công cụ khám phá trong l nh vực Dữ liệu lớn Mục tiêu là sử dụng các biểu diễn đồ họ để phát triển sự hiểu biết sâu sắc hơn về dữ liệu đư c phân tích Cụ thể n giúp xác định và làm nổi bật các mô hình n, mối tương qu n và sự b t thường Phân tích trực qu n c ng liên quan trực tiếp đến phân tích dữ liệu khám phá vì nó khuyến khích việc xây dựng các câu hỏi t các g c độ khác nh u iện c các loại phân tích trực quan
s u đây: Bản đồ nhiệt (Heat Maps); Lô thời gian (Time Series Plots); Đồ thị mạng (Network Graphs); Ánh xạ dữ liệu không gian (Spatial Data Mapping).[5]
Trang 391.3 CÁC ÀI TO N PH N T CH Ự O
1.3 t t ự
hi n i về các mô hình dự báo hiện c 02 bài toán ch nh cần giải quyết:
- i toán hồi quy (Regression): Là những v n đề mà bạn đ ng cố gắng dự
đoán hoặc giải thích một hiện tư ng (biến phụ thuộc) b ng cách sử dụng những hiện tư ng khác (biến độc lập) với đầu ra liên tục, ví dụ giá chính xác của một cổ phiếu vào ngày hôm sau [2]
- i toán ph n ớp assi ication : Cố gắng xác định một nh m hiện tư ng
b ng cách l y xác su t, ví dụ giá cổ phiếu sẽ tăng giảm hoặc sẽ không thay đổi vào ngày hôm sau Các thuật toán như ( upport ector chines)
và KNN tạo ra một đầu ra lớp Các thuật toán như ogistic egression Random Forest, r dient oosting d boost đư r kết quả xác su t Chuyển đổi đầu ra xác su t thành đầu ra lớp chỉ là v n đề tạo xác su t ngưỡng [16, 19]
Hình 1.16 Biểu diễn cây quyết địn ơ ản
Trang 40Trong l nh vực học máy, cây quyết định là một kiểu mô hình dự báo ngh là một ánh xạ t các quan sát về một sự vật/hiện tư ng tới các kết luận về giá trị mục tiêu củ sự vật/hiện tư ng Mỗi nút trong tương ứng với một biến đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đ ỗi nút lá đại diện cho giá trị dự đoán của biến mục ti u cho trước các giá trị dự đoán của các biến đư c biểu diễn bởi đường đi t nút gốc tới nút lá đ ỹ thuật học máy dùng trong cây quyết định đư c gọi là học b ng cây quyết định h y chỉ gọi với cái tên ngắn gọn là cây quyết định ột v dụ cho cây quyết định là bài toán dự báo một người c chơi tennis h y không ?
Hình 1.17 Cây quyết địn o v ệ ơ T nn s
Cây quyết định là một cây phân c p có c u trúc đư c dùng để phân lớp các đối tư ng dự vào dãy các luật Các thuộc tính củ đối tư ng (ngoại tr thuộc tính phân lớp) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordin l qu ntit tive v lues) trong khi đ thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal [19]
Tóm lại, cho dữ liệu về các đối tư ng gồm các thuộc tính cùng với lớp của
nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp củ các đối tư ng chư biết So với các phương pháp khác cây quyết định là một trong những hình thức mô tả dữ liệu tương đối đơn giản trực qu n dễ hiểu đối với người dùng nhưng lại hiệu quả n n đư c sử dụng nhiều Trong những năm qu nhiều
mô hình phân lớp dữ liệu đã đư c các nhà khoa học trong nhiều l nh vực khác
nh u đề xu t như mạng notron, mô hình thống kê tuyến tính bậc 2, cây quyết định mô hình di truyền Trong số những mô hình đ cây quyết định đư c