TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC ĐỀ TÀI KHAI PHÁ DỮ LIỆU CHUYÊN NGÀNH TOÁN TIN CHUYÊN SÂU TIN HỌC GIẢNG VIÊN HƯỚNG DẪN LÊ CHÍ NGỌC SINH VIÊN THỰC HIỆN ĐINH VĂN HÙNG MỤC LỤ[.]
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC
ĐỀ TÀI: KHAI PHÁ DỮ LIỆU CHUYÊN NGÀNH: TOÁN TIN
CHUYÊN SÂU: TIN HỌC
GIẢNG VIÊN HƯỚNG DẪN: LÊ CHÍ NGỌC
SINH VIÊN THỰC HIỆN: ĐINH VĂN HÙNG
Trang 2
MỤC LỤC
LỜI MỞ ĐẦU 3
CHƯƠNG 1: ĐỊNH NGHĨA VỀ DỮ LIỆU LỚN 4
CHƯƠNG 2: NGUYÊN TẮC CƠ BẢN CỦA PHÂN TÍCH DỮ LIỆU LỚN 10
CHƯƠNG 3: CÔNG NGHỆ DỮ LIỆU LỚN 16
CHƯƠNG 4: DỮ LIỆU LỚN VÀ KHO DỮ LIỆU 24
CHƯƠNG 5: DỮ LIỆU LỚN VÀ PHÂN TÍCH LUỒNG 31
CHƯƠNG 6: CÁC ỨNG DỤNG CỦA STREAM ANALYTICS 36
KẾT LUẬN 40
TÀI LIỆU THAM KHẢO 41
2
Trang 3LỜI MỞ ĐẦU
Dữ liệu lớn, có nghĩa là nhiều thứ đối với nhiều người, không phải là mộtmốt công nghệ mới Đó là một ưu tiên kinh doanh có tiềm năng thay đổi sâu sắc bốicảnh cạnh tranh trong nền kinh tế hội nhập toàn cầu ngày nay Ngoài việc cung cấpcác giải pháp sáng tạo để vượt qua các thách thức kinh doanh, Dữ liệu lớn và phântích thúc đẩy các cách mới để chuyển đổi các quy trình, tổ chức, toàn bộ ngành vàthậm chí cả xã hội cùng nhau Tuy nhiên, phương tiện truyền thông rộng rãi làmcho khó phân biệt sự cường điệu với thực tế Chương này nhằm cung cấp một phạm
vi bao quát toàn diện về Dữ liệu lớn, các công nghệ cho phép và các khái niệm phântích liên quan để giúp hiểu các khả năng và hạn chế của công nghệ mới nổi này.Chương này bắt đầu với một định nghĩa và các khái niệm liên quan đến Dữ liệu lớn,theo sau là các chi tiết kỹ thuật của các công nghệ cho phép bao gồm Hadoop,MapReduce và NoQuery Sau khi mô tả nhà khoa học dữ liệu là một vai trò / côngviệc tổ chức thời trang mới, chúng tôi cung cấp một phân tích so sánh giữa kho dữliệu và phân tích Dữ liệu lớn Phần cuối của chương dành riêng cho phân tích luồng,đây là một trong những đề xuất giá trị hứa hẹn nhất của phân tích Dữ liệu lớn Báocáo này gồm các chương sau:
Chương 1: Định nghĩa về dữ liệu lớn
Chương 2: Nguyên tắc cơ bản của phân tích dữ liệu lớn
Chương 3: Công nghệ dữ liệu lớn
Chương 4: Dữ liệu lớn và kho dữ liệu
Chương 5: Dữ liệu lớn và phân tích luồng
Chương 6: Các ứng dụng của Stream Analytics
Em xin được gửi lời cảm ơn sâu sắc tới thầy Lê Chí Ngọc đã tận tình hướng dẫn
em hoàn thành bài tập này
Trang 4CHƯƠNG 1: ĐỊNH NGHĨA VỀ DỮ LIỆU LỚN
Sử dụng dữ liệu để hiểu khách hàng / khách hàng và hoạt động kinh doanh
để duy trì tăng trưởng (và thúc đẩy) tăng trưởng và lợi nhuận là một nhiệm vụ ngàycàng khó khăn hơn đối với các doanh nghiệp hiện nay Khi ngày càng có nhiều dữliệu có sẵn trong các hình thức và thời trang khác nhau, việc xử lý kịp thời dữ liệubằng các phương tiện truyền thống trở nên không thực tế Hiện tượng này ngày nayđược gọi là Big Data, đang nhận được sự bao phủ báo chí đáng kể và thu hút sựquan tâm ngày càng tăng từ cả người dùng doanh nghiệp và các chuyên gia CNTT.Kết quả là Big Data đang trở thành một từ thông dụng tiếp thị quá mức và bị lạmdụng
Dữ liệu lớn có nghĩa là những thứ khác nhau cho những người có nền tảng
và sở thích khác nhau Theo truyền thống, thuật ngữ xuất hiện dữ liệu lớn đã được
sử dụng để mô tả khối lượng dữ liệu khổng lồ được phân tích bởi các tổ chức lớnnhư Google hoặc nghiên cứu các dự án khoa học tại NASA Nhưng đối với hầu hếtcác doanh nghiệp, nó có một thuật ngữ tương đối: thì Big Big phụ thuộc vào quy
mô tổ chức Vấn đề là tìm kiếm giá trị mới trong và ngoài các nguồn dữ liệu thôngthường Việc vượt qua các ranh giới của phân tích dữ liệu sẽ khám phá những hiểubiết và cơ hội mới, và Lớn big Phụ thuộc vào nơi bạn bắt đầu và cách bạn tiến hành.Xem xét mô tả phổ biến về Dữ liệu lớn: Dữ liệu lớn vượt quá phạm vi của các môitrường phần cứng và / hoặc khả năng thường được sử dụng của các công cụ phầnmềm để nắm bắt, quản lý và xử lý nó trong khoảng thời gian có thể chấp nhận đượcđối với dân số người dùng của nó Dữ liệu lớn đã trở thành một thuật ngữ phổ biến
để mô tả sự tăng trưởng theo cấp số nhân, tính sẵn có và sử dụng thông tin, cả cócấu trúc và không cấu trúc Phần lớn đã được viết về xu hướng Dữ liệu lớn và làmthế nào nó có thể làm cơ sở cho sự đổi mới, phân biệt và tăng trưởng
Dữ liệu lớn đến từ đâu? Một câu trả lời đơn giản là ở khắp mọi nơi Cácnguồn bị bỏ qua vì những hạn chế kỹ thuật hiện được coi là mỏ vàng Dữ liệu lớn
có thể đến từ nhật ký web, RFID, hệ thống GPS, mạng cảm biến, mạng xã hội, tàiliệu văn bản trên Internet, chỉ mục tìm kiếm trên Internet, hồ sơ cuộc gọi chi tiết,
4
Trang 5thiên văn học, khoa học khí quyển, sinh học, genomics, vật lý hạt nhân, thí nghiệmsinh hóa, hồ sơ y tế , nghiên cứu khoa học, giám sát quân sự, lưu trữ nhiếp ảnh, lưutrữ video và thực hành thương mại điện tử quy mô lớn.
Dữ liệu lớn không phải là mới Điều mới là định nghĩa và cấu trúc của Dữliệu lớn liên tục thay đổi Các công ty đã lưu trữ và phân tích khối lượng dữ liệu lớn
kể từ khi kho dữ liệu ra đời vào đầu những năm 1990 Mặc dù terabyte trước đâyđồng nghĩa với kho Dữ liệu lớn, giờ đây là petabyte và tốc độ tăng trưởng về khốilượng dữ liệu tiếp tục leo thang khi các tổ chức tìm cách lưu trữ và phân tích mức
độ chi tiết giao dịch cao hơn, cũng như dữ liệu do Web và máy tạo ra, để có được sựhiểu biết tốt hơn về hành vi của khách hàng và trình điều khiển kinh doanh
Nhiều người (các nhà phân tích / nhà phân tích học thuật và các nhà lãnh đạongành công nghiệp) cho rằng, Dữ liệu Lớn Lớn là một cách hiểu sai Những gì nónói và những gì nó có nghĩa là không hoàn toàn giống nhau Đó là, Dữ liệu lớnkhông chỉ là lớn, dữ liệu Khối lượng dữ liệu tuyệt đối chỉ là một trong nhiều đặcđiểm thường được liên kết với Dữ liệu lớn, chẳng hạn như tính đa dạng, vận tốc,tính xác thực, tính biến đổi và giá trị, trong số các đặc điểm khác
Ba V xác định dữ liệu lớn
Dữ liệu lớn thường được xác định bởi 3 V: volume (khối lượng), variety (sự
đa dạng) , velocity (vận tốc) Ngoài ba yếu tố này, chúng tôi còn thấy một số nhàcung cấp giải pháp Dữ liệu lớn hàng đầu bổ sung các Vs khác, chẳng hạn như tínhxác thực (IBM), tính biến thiên (SAS) và đề xuất giá trị
Khối lượng
Khối lượng rõ ràng là đặc điểm chung nhất của Dữ liệu lớn Nhiều yếu tốgóp phần làm tăng khối lượng dữ liệu theo cấp số nhân, chẳng hạn như dữ liệu dựatrên giao dịch được lưu trữ qua nhiều năm, dữ liệu văn bản liên tục truyền phát từphương tiện truyền thông xã hội, tăng lượng dữ liệu cảm biến được thu thập, tựđộng tạo dữ liệu RFID và GPS, v.v Trong quá khứ, khối lượng dữ liệu quá mức đãtạo ra các vấn đề lưu trữ, cả về kỹ thuật và tài chính Nhưng với ngày nay, các công
Trang 6nghệ tiên tiến cùng với việc giảm chi phí lưu trữ, những vấn đề này không còn đáng
kể nữa; thay vào đó, các vấn đề khác xuất hiện, bao gồm cách xác định mức độ liênquan giữa khối lượng dữ liệu lớn và cách tạo giá trị từ dữ liệu được coi là có liênquan
Như đã đề cập trước đây, lớn là một thuật ngữ tương đối Nó thay đổi theothời gian và được các tổ chức khác nhau cảm nhận khác nhau Với sự gia tăng đángkinh ngạc về khối lượng dữ liệu, ngay cả việc đặt tên cho tiếng vang Big Data tiếptheo cũng là một thách thức Khối lượng dữ liệu cao nhất từng được gọi là petabyte(PB) đã rời vị trí của nó thành zettabyte (ZB), là một nghìn tỷ gigabyte (GB) hoặcmột tỷ terabyte (TB) Thông tin chi tiết công nghệ 6.1 cung cấp tổng quan về kíchthước và cách đặt tên của khối lượng Dữ liệu lớn
Kích thước dữ liệu ngày càng lớn hơn và lớn hơn nữa
Việc đo kích thước dữ liệu đang gặp khó khăn trong việc theo kịp tên mới.Chúng ta đều biết kilobyte (KB, là 1.000 byte), megabyte (MB, là 1.000.000 byte),gigabyte (GB, là 1.000.000.000 byte) và terabyte (TB, là 1.000.000.000.000 byte).Ngoài ra, tên được đặt cho kích thước dữ liệu là tương đối mới đối với hầu hếtchúng ta Bảng dưới đây cho thấy những gì đến sau terabyte và hơn thế nữa
Hãy xem xét rằng một exabyte dữ liệu được tạo ra trên Internet mỗi ngày,tương đương với 250 triệu đĩa DVD có giá trị thông tin Và ý tưởng về số lượng dữliệu lớn hơn nữa, một Zettabyte, không phải là quá xa vời khi nói đến lượng thôngtin truyền tải trên Web trong bất kỳ năm nào Trên thực tế, các chuyên gia trongngành đã ước tính rằng chúng ta sẽ thấy 1,3 zettabyte lưu lượng truy cập hàng nămqua Internet vào năm 2016 và ngay sau đó, chúng ta có thể bắt đầu nói về khốilượng thậm chí còn lớn hơn Khi đề cập đến yottabyte, một số nhà khoa học về Dữliệu lớn thường tự hỏi về việc NSA hoặc FBI có bao nhiêu dữ liệu trên người Đặtdưới dạng DVD, một yottabyte sẽ cần 250 nghìn tỷ Một brontobyte, không phải làtiền tố SI chính thức nhưng rõ ràng được một số người trong cộng đồng đo lườngnhận ra, là số 1 theo sau là 27 số không Kích thước của cường độ như vậy có thể
6
Trang 7được sử dụng để mô tả lượng dữ liệu cảm biến mà chúng ta sẽ nhận được từ Internettrong thập kỷ tới, nếu không sớm hơn Một gegobyte là 10 đến sức mạnh của 30.Đối với nguồn gốc của Dữ liệu lớn, hãy xem xét những điều sau:
Tên Ký hiệu Giá trị
* Chưa phải là tên / ký hiệu SI (Hệ thống đơn vị quốc tế) chính thức
Máy va chạm Hadron lớn Cern tạo ra 1 petabyte mỗi giây
Các cảm biến từ động cơ phản lực Boeing tạo ra 20 terabyte dữ liệu mỗi giờ
500 terabyte dữ liệu mới mỗi ngày được nhập vào cơ sở dữ liệu củaFacebook
Trên YouTube, 72 giờ video được tải lên mỗi phút, dịch sang terabyte cứ sau
hệ thống OLAP cho đến các tài liệu văn bản, e-mail, XML, dữ liệu thu thập được và
dữ liệu thu được từ cảm biến, đến video, âm thanh và dữ liệu đánh dấu chứngkhoán Theo một số ước tính, 80 đến 85 phần trăm của tất cả các tổ chức Dữ liệu dữliệu ở một dạng định dạng không cấu trúc hoặc bán cấu trúc (một định dạng khôngphù hợp với các lược đồ cơ sở dữ liệu truyền thống) Nhưng không thể phủ nhận giá
Trang 8trị của nó, và do đó, nó phải được đưa vào các phân tích để hỗ trợ cho việc ra quyếtđịnh.
Vận tốc
Vận tốc có lẽ là đặc điểm bị bỏ qua nhất của Dữ liệu lớn Phản ứng đủ nhanh
để đối phó với vận tốc là một thách thức đối với hầu hết các tổ chức Đối với cácmôi trường nhạy cảm với thời gian, đồng hồ chi phí cơ hội của dữ liệu bắt đầu đánhdấu thời điểm dữ liệu được tạo Thời gian trôi qua, đề xuất giá trị của dữ liệu xuốngcấp và cuối cùng trở nên vô giá trị Cho dù đối tượng là sức khỏe của bệnh nhân,sức khỏe của hệ thống giao thông hay sức khỏe của danh mục đầu tư, truy cập dữliệu và phản ứng nhanh hơn với hoàn cảnh sẽ luôn tạo ra kết quả thuận lợi hơn
Trong cơn bão dữ liệu lớn mà chúng ta hiện đang chứng kiến, hầu hết mọingười đều cố định vào các phân tích nghỉ ngơi, sử dụng các hệ thống phần mềm vàphần cứng được tối ưu hóa để khai thác số lượng lớn các nguồn dữ liệu biến thể.Mặc dù điều này cực kỳ quan trọng và có giá trị cao, nhưng có một loại phân tíchkhác, được điều khiển từ vận tốc của Dữ liệu lớn, được gọi là phân tích luồng dữliệu của Google, hay phân tích chuyển động, mà hầu hết bị bỏ qua Nếu được thựchiện chính xác, phân tích luồng dữ liệu có thể có giá trị và trong một số môi trườngkinh doanh có giá trị hơn so với phân tích tại phần còn lại
Độ chính xác
Veracity là một thuật ngữ được đặt ra bởi IBM đang được sử dụng như là V
V thứ tư để mô tả Dữ liệu lớn Nó đề cập đến sự phù hợp với sự thật: tính chính xác,chất lượng, tính trung thực hoặc độ tin cậy của dữ liệu Các công cụ và kỹ thuậtthường được sử dụng để xử lý tính chính xác của Big Data, bằng cách chuyển đổi
dữ liệu thành những hiểu biết đáng tin cậy và chất lượng
Sự thay đổi
Ngoài vận tốc và giống dữ liệu ngày càng tăng, các luồng dữ liệu có thểkhông nhất quán cao với các đỉnh định kỳ Là một cái gì đó xu hướng lớn trong các
8
Trang 9phương tiện truyền thông xã hội? Có lẽ có một IPO cao cấp lờ mờ Có lẽ bơi cùnglợn ở Bahamas đột nhiên là hoạt động nghỉ mát phải làm Tải dữ liệu cao điểm hàngngày, theo mùa và kích hoạt sự kiện có thể là thách thức để quản lý, đặc biệt là vớicác phương tiện truyền thông xã hội liên quan.
Đề xuất giá trị
Sự phấn khích xung quanh Big Data là đề xuất giá trị của nó Một khái niệmđịnh sẵn về dữ liệu của Big big là nó chứa (hoặc có tiềm năng lớn hơn để chứa)nhiều mẫu và sự bất thường thú vị hơn so với dữ liệu của YouTube Do đó, bằngcách phân tích dữ liệu lớn và giàu tính năng, các tổ chức có thể đạt được giá trị kinhdoanh lớn hơn mà họ có thể không có Mặc dù người dùng có thể phát hiện các mẫutrong các tập dữ liệu nhỏ bằng các phương pháp thống kê và học máy đơn giản hoặccác công cụ báo cáo và truy vấn đặc biệt, Dữ liệu lớn có nghĩa là phân tích big big.Phân tích lớn có nghĩa là cái nhìn sâu sắc hơn và quyết định tốt hơn, điều mà mọi tổchức cần
Do định nghĩa chính xác của Dữ liệu lớn vẫn là vấn đề thảo luận liên tụctrong giới học thuật và công nghiệp, nên có nhiều đặc điểm (có lẽ nhiều Vs) có thể
sẽ được thêm vào danh sách này Bất kể điều gì xảy ra, tầm quan trọng và giá trị củaBig Data vẫn ở đây Hình 6.1 cho thấy một kiến trúc khái niệm trong đó dữ liệu lớn(ở phía bên trái của hình) được chuyển đổi thành hiểu biết kinh doanh thông quaviệc sử dụng kết hợp các phân tích nâng cao và phân phối cho nhiều người dùng /vai trò khác nhau để đưa ra quyết định nhanh hơn / tốt hơn
Trang 10CHƯƠNG 2: NGUYÊN TẮC CƠ BẢN CỦA PHÂN TÍCH DỮ LIỆU LỚN
Dữ liệu lớn tự nó, bất kể kích thước, loại hoặc tốc độ, là vô giá trị trừ khingười dùng doanh nghiệp làm điều gì đó với nó mang lại giá trị cho tổ chức của họ
Đó là nơi mà các phân tích lớn của Edward đi vào hình ảnh Mặc dù các tổ chứcluôn chạy các báo cáo và bảng điều khiển chống lại kho dữ liệu, hầu hết đã không
mở các kho lưu trữ này để thăm dò theo yêu cầu chuyên sâu Điều này một phần là
do các công cụ phân tích quá phức tạp đối với người dùng trung bình nhưng cũng vìcác kho lưu trữ thường không chứa tất cả dữ liệu cần thiết của người dùng điện.Nhưng điều này sắp thay đổi (và đã thay đổi, đối với một số người) theo một cách
ấn tượng, nhờ vào mô hình phân tích Dữ liệu lớn mới
Với đề xuất giá trị, Big Data cũng mang lại những thách thức lớn cho các tổchức Các phương tiện truyền thống để thu thập, lưu trữ và phân tích dữ liệu không
có khả năng xử lý Dữ liệu lớn một cách hiệu quả và hiệu quả Do đó, các giốngcông nghệ mới cần được phát triển (hoặc mua / thuê / thuê ngoài) để thực hiện tháchthức Dữ liệu lớn Trước khi thực hiện đầu tư như vậy, các tổ chức nên biện minhcho các phương tiện Dưới đây là một số câu hỏi có thể giúp làm sáng tỏ tình huốngnày Nếu bất kỳ tuyên bố nào sau đây là đúng, thì bạn cần nghiêm túc xem xét bắttay vào hành trình Dữ liệu lớn
Bạn có thể xử lý số lượng dữ liệu mà bạn muốn vì những hạn chế được đặt
ra bởi nền tảng hoặc môi trường hiện tại của bạn
Bạn muốn liên quan đến các nguồn dữ liệu mới / hiện đại (ví dụ: phươngtiện truyền thông xã hội, RFID, cảm giác, Web, GPS, dữ liệu văn bản) vàonền tảng phân tích của bạn, nhưng bạn không thể vì nó không tuân thủ cáchàng được xác định theo lược đồ lưu trữ dữ liệu và các cột mà không hysinh tính trung thực hoặc sự phong phú của dữ liệu mới
Bạn cần (hoặc muốn) tích hợp dữ liệu càng nhanh càng tốt để có mặt trênphân tích của bạn
10
Trang 11 Bạn muốn làm việc với lược đồ theo yêu cầu (trái ngược với lược đồ đượcxác định trước được sử dụng trong RDBMS) vì bản chất của dữ liệu mới cóthể không được biết hoặc có thể không đủ thời gian để xác định và pháttriển lược đồ cho nó.
Dữ liệu đến rất nhanh tại cửa tổ chức của bạn mà nền tảng phân tích truyềnthống của bạn không thể xử lý được
Hình 6.2 Các yếu tố thành công quan trọng cho phân tích dữ liệu lớn.
Sau đây là các yếu tố thành công quan trọng nhất cho phân tích Dữ liệu lớn:
Trang 121 Một nhu cầu kinh doanh rõ ràng (phù hợp với tầm nhìn và chiến lược).Đầu tư kinh doanh nên được thực hiện vì lợi ích của doanh nghiệp, khôngphải vì lợi ích của những tiến bộ công nghệ Do đó, trình điều khiển chínhcho phân tích Dữ liệu lớn phải là nhu cầu của doanh nghiệp, ở bất kỳ cấpchiến lược, chiến thuật nào, và hoạt động.
2 Mạnh mẽ, cam kết tài trợ (vô địch điều hành) Có một thực tế nổi tiếng lànếu bạn không có sự bảo trợ mạnh mẽ, cam kết điều hành, thì rất khó (nếukhông nói là không thể) để thành công Nếu phạm vi là một hoặc một vàiứng dụng phân tích, tài trợ có thể ở cấp phòng ban Tuy nhiên, nếu mục tiêu
là chuyển đổi tổ chức toàn doanh nghiệp, điều thường xảy ra đối với các sángkiến Dữ liệu lớn, tài trợ cần phải ở cấp cao nhất và toàn tổ chức
3 Sắp xếp giữa chiến lược kinh doanh và CNTT Điều cần thiết là đảm bảorằng công việc phân tích luôn hỗ trợ chiến lược kinh doanh và không phải làcách khác Analytics phải đóng vai trò kích hoạt trong việc thực hiện thànhcông chiến lược kinh doanh
4 Văn hóa ra quyết định dựa trên thực tế Trong một nền văn hóa ra quyếtđịnh dựa trên thực tế, các con số thay vì trực giác, cảm giác ruột thịt hoặcđưa ra quyết định thúc đẩy Ngoài ra còn có một nền văn hóa thử nghiệm đểxem những gì hoạt động và những gì không Để tạo ra một văn hóa ra quyếtđịnh dựa trên thực tế, quản lý cấp cao cần phải:
■ Nhận ra rằng một số người có thể điều chỉnh
■ Hãy là người hỗ trợ thanh nhạc
■ Căng thẳng rằng các phương pháp lỗi thời phải được ngưng
■ Hỏi để xem phân tích nào đã đi vào quyết định
■ Liên kết các ưu đãi và bồi thường với các hành vi mong muốn
5 Một cơ sở hạ tầng dữ liệu mạnh mẽ Kho dữ liệu đã cung cấp cơ sở hạtầng dữ liệu cho các phân tích Cơ sở hạ tầng này đang thay đổi và được tăng
12
Trang 13cường trong kỷ nguyên Dữ liệu lớn với các công nghệ mới Thành công đòihỏi phải kết hợp với cái cũ với một cơ sở hạ tầng toàn diện, hoạt động hiệpđồng.
Khi kích thước và độ phức tạp tăng lên, nhu cầu về các hệ thống phân tíchhiệu quả hơn cũng tăng lên Để theo kịp nhu cầu tính toán của Dữ liệu lớn, một số
kỹ thuật và nền tảng tính toán mới và sáng tạo đã được phát triển Các kỹ thuật nàyđược gọi chung là điện toán hiệu năng cao, bao gồm:
● Phân tích trong bộ nhớ: Giải quyết các vấn đề phức tạp trong thờigian thực gần với các thông tin chi tiết có độ chính xác cao bằng cách chophép tính toán phân tích và Dữ liệu lớn được xử lý trong bộ nhớ và phânphối trên một tập hợp các nút chuyên dụng
● Phân tích trong cơ sở dữ liệu: Dành thời gian để hiểu sâu hơn và chophép quản trị dữ liệu tốt hơn bằng cách thực hiện các chức năng phân tích vàtích hợp dữ liệu bên trong cơ sở dữ liệu để bạn giành chiến thắng phải dichuyển hoặc chuyển đổi dữ liệu nhiều lần
● Điện toán lưới: Thúc đẩy hiệu quả, chi phí thấp hơn và hiệu suất tốthơn bằng cách xử lý các công việc trong nhóm tài nguyên CNTT được chia
sẻ, quản lý tập trung
● Thiết bị gia dụng Kết hợp phần cứng và phần mềm trong một đơn
vị vật lý không chỉ nhanh mà còn có thể mở rộng trên cơ sở khi cần thiết.Yêu cầu tính toán chỉ là một phần nhỏ trong danh sách các thách thức mà Dữliệu lớn đặt ra cho các doanh nghiệp hiện nay Sau đây là danh sách các thách thứcđược các nhà quản trị doanh nghiệp tìm thấy có tác động đáng kể đến việc triển khaithành công phân tích Dữ liệu lớn Khi xem xét các dự án và kiến trúc Big Data, việcchú ý đến những thách thức này sẽ khiến hành trình phân tích năng lực phân tích trởnên ít căng thẳng hơn
Trang 14● Khối lượng dữ liệu Khả năng thu thập, lưu trữ và xử lý khối lượng dữliệu khổng lồ với tốc độ chấp nhận được để thông tin mới nhất có sẵn chonhững người ra quyết định khi họ cần.
● Tích hợp dữ liệu Khả năng kết hợp dữ liệu không giống nhau về cấutrúc hoặc nguồn và thực hiện nhanh chóng và chi phí hợp lý
● Khả năng xử lý Khả năng xử lý dữ liệu nhanh chóng, vì nó được ghilại Cách thu thập truyền thống và sau đó xử lý dữ liệu có thể không hoạtđộng Trong nhiều tình huống, dữ liệu cần được phân tích ngay khi đượcghi lại để tận dụng giá trị cao nhất (Điều này được gọi là phân tích luồng,
sẽ được đề cập sau trong chương này.)
● Quản trị dữ liệu Khả năng theo kịp các vấn đề về bảo mật, quyền riêng
tư, quyền sở hữu và chất lượng của Big Data Khi khối lượng, sự đa dạng(định dạng và nguồn) và tốc độ thay đổi dữ liệu, thì các khả năng của thựctiễn quản trị cũng vậy
● Kỹ năng sẵn có Dữ liệu lớn đang được khai thác với các công cụ mới
và đang được xem xét theo nhiều cách khác nhau Có một sự thiếu hụtngười (thường được gọi là các nhà khoa học dữ liệu, được đề cập sautrong chương này) với các kỹ năng để thực hiện công việc
● Chi phí giải pháp Vì Big Data đã mở ra một thế giới cải tiến kinh doanhkhả thi, rất nhiều thử nghiệm và khám phá đang diễn ra để xác định các
mô hình quan trọng và những hiểu biết chuyển sang giá trị Do đó, để đảmbảo ROI dương cho dự án Dữ liệu lớn, điều quan trọng là phải giảm chiphí cho các giải pháp được sử dụng để tìm giá trị đó
Mặc dù các thách thức là có thật, nhưng đề xuất giá trị của phân tích Dữ liệulớn cũng vậy Bất cứ điều gì bạn có thể làm với tư cách là người lãnh đạo phân tíchkinh doanh để giúp chứng minh giá trị của các nguồn dữ liệu mới cho doanh nghiệp
14
Trang 15sẽ đưa tổ chức của bạn vượt ra ngoài thử nghiệm và khám phá Dữ liệu lớn để thíchnghi và nắm bắt nó như một sự khác biệt Không có gì sai khi khám phá, nhưngcuối cùng giá trị đến từ việc đưa những hiểu biết đó vào hành động.
Các vấn đề kinh doanh được giải quyết bởi phân tích dữ liệu lớn
Các vấn đề kinh doanh hàng đầu được Big Data giải quyết tổng thể là hiệuquả của quá trình và giảm chi phí, cũng như nâng cao trải nghiệm của khách hàng,nhưng các ưu tiên khác nhau xuất hiện khi được ngành công nghiệp xem xét Hiệuquả xử lý và giảm chi phí là những vấn đề kinh doanh phổ biến có thể được giảiquyết bằng cách phân tích Dữ liệu lớn Hiệu quả và giảm chi phí có lẽ là một trongnhững vấn đề được xếp hạng hàng đầu có thể được giải quyết với phân tích Dữ liệulớn cho các ngành sản xuất, chính phủ, năng lượng và tiện ích, truyền thông vàtruyền thông, vận tải và y tế Trải nghiệm khách hàng nâng cao có thể đứng đầudanh sách các vấn đề được giải quyết bởi các công ty bảo hiểm và nhà bán lẻ Quản
lý rủi ro thường đứng đầu danh sách cho các công ty trong lĩnh vực ngân hàng vàgiáo dục Dưới đây là danh sách các vấn đề có thể được giải quyết bằng cách sửdụng phân tích Dữ liệu lớn:
Hiệu quả quá trình và giảm chi phí
● Quản lý thương hiệu
● Tối đa hóa doanh thu, bán chéo và bán lên
● Nâng cao trải nghiệm khách hàng
● Nhận dạng Churn, tuyển dụng khách hàng
● Dịch vụ khách hàng được cải thiện
● Xác định sản phẩm mới và cơ hội thị trường
● Quản lý rủi ro
● Tuân thủ quy định
● Tăng cường khả năng bảo mật
Trang 17CHƯƠNG 3: CÔNG NGHỆ DỮ LIỆU LỚN
Có một số công nghệ xử lý và phân tích Dữ liệu lớn, nhưng hầu hết có một
số đặc điểm chung (Kelly 2012) Cụ thể, họ tận dụng phần cứng hàng hóa để chophép các kỹ thuật xử lý quy mô và xử lý song song; sử dụng các khả năng lưu trữ
dữ liệu không liên quan để xử lý dữ liệu phi cấu trúc và bán cấu trúc; và áp dụngcông nghệ phân tích và trực quan hóa dữ liệu tiên tiến vào Dữ liệu lớn để truyền đạtthông tin chuyên sâu đến người dùng cuối Có ba công nghệ Dữ liệu lớn nổi bật, màhầu hết tin tưởng sẽ biến đổi thị trường quản lý dữ liệu và phân tích kinh doanh:MapReduce, Hadoop và NoQuery
MapReduce
MapReduce là một kỹ thuật phổ biến bởi Google, phân phối việc xử lý cáctệp dữ liệu đa cấu trúc rất lớn trên một cụm máy lớn Hiệu suất cao đạt được bằngcách chia quá trình xử lý thành các đơn vị công việc nhỏ có thể chạy song song trênhàng trăm, có khả năng hàng ngàn nút trong cụm Để trích dẫn bài báo chuyên đề vềMapReduce:
Bản đồ MapReduce là một mô hình lập trình và triển khai liên quan để xử lý
và tạo các tập dữ liệu lớn Các chương trình được viết theo kiểu chức năng nàyđược tự động song song và thực hiện trên một cụm lớn các máy móc hàng hóa.Điều này cho phép các lập trình viên không có bất kỳ kinh nghiệm nào với các hệthống phân tán và song song có thể dễ dàng sử dụng các tài nguyên của một hệthống phân tán lớn (Dean và Ghemawat, 2004)
Điểm mấu chốt cần lưu ý từ trích dẫn này là MapReduce là mô hình lậptrình, không phải ngôn ngữ lập trình, tức là, nó được thiết kế để sử dụng cho các lậptrình viên, thay vì người dùng doanh nghiệp Cách dễ nhất để mô tả cáchMapReduce hoạt động là thông qua việc sử dụng một ví dụ, xem Bộ đếm vuôngmàu trong Hình 6.4
Trang 18Hình 6.4 Mô tả đồ họa của quy trình MapReduce.
Đầu vào của quy trình MapReduce trong Hình 6.4 là một tập hợp các ôvuông màu Mục tiêu là để đếm số lượng hình vuông của mỗi màu Lập trình viêntrong ví dụ này chịu trách nhiệm mã hóa bản đồ và giảm các chương trình; phần cònlại của quá trình xử lý được xử lý bởi hệ thống phần mềm triển khai mô hình lậptrình MapReduce
Hệ thống MapReduce trước tiên đọc tệp đầu vào và chia nó thành nhiềuphần Trong ví dụ này, có hai phần tách, nhưng trong kịch bản thực tế, số lần chiathường sẽ cao hơn nhiều Các phân chia này sau đó được xử lý bởi nhiều chươngtrình bản đồ chạy song song trên các nút của cụm Vai trò của mỗi chương trình bản
đồ trong trường hợp này là nhóm dữ liệu theo cách phân chia theo màu Sau đó, hệthống MapReduce lấy đầu ra từ mỗi chương trình bản đồ và hợp nhất (xáo trộn / sắpxếp) kết quả cho đầu vào cho chương trình rút gọn, tính toán tổng số bình phươngcủa mỗi màu Trong này ví dụ, chỉ có một bản sao của chương trình rút gọn được sửdụng, nhưng có thể có nhiều hơn trong thực tế Để tối ưu hóa hiệu suất, các lập trình
18
Trang 19viên có thể cung cấp chương trình xáo trộn / sắp xếp của riêng họ và cũng có thểtriển khai một bộ kết hợp kết hợp các tệp đầu ra bản đồ cục bộ để giảm số lượng tệpđầu ra phải được truy cập từ xa trên cụm theo bước xáo trộn / sắp xếp.
Hadoop
Hadoop là một khung công tác mã nguồn mở để xử lý, lưu trữ và phân tíchlượng lớn dữ liệu phân tán, không có cấu trúc Ban đầu được tạo bởi Doug Cuttingtại Yahoo!, Hadoop được lấy cảm hứng từ MapReduce, một chức năng do ngườidùng định nghĩa được phát triển bởi Google vào đầu những năm 2000 để lập chỉmục cho Web Nó được thiết kế để xử lý song song petabyte và exabyte dữ liệuđược phân phối trên nhiều nút Các cụm Hadoop chạy trên phần cứng hàng hóa rẻtiền để các dự án có thể mở rộng quy mô mà không phá vỡ ngân hàng Hadoop hiện
là một dự án của Quỹ phần mềm Apache, nơi hàng trăm người đóng góp liên tục cảitiến công nghệ cốt lõi Khái niệm cơ bản: Thay vì đập vào một khối dữ liệu khổng
lồ bằng một máy duy nhất, Hadoop chia Dữ liệu lớn thành nhiều phần để mỗi phần
có thể được xử lý và phân tích cùng một lúc
Hadoop làm việc như thế nào ?
Một khách hàng truy cập dữ liệu phi cấu trúc và bán cấu trúc từ các nguồnbao gồm các tệp nhật ký, nguồn cấp dữ liệu truyền thông xã hội và lưu trữ dữ liệunội bộ Nó chia dữ liệu thành các phần của bộ phận, sau đó được tải vào một hệthống tệp được tạo thành từ nhiều nút chạy trên phần cứng hàng hóa Lưu trữ tệpmặc định trong Hadoop là Hệ thống tệp phân tán Hadoop hoặc HDFS Các hệ thốngtệp như HDFS có khả năng lưu trữ khối lượng lớn dữ liệu phi cấu trúc và bán cấutrúc vì chúng không yêu cầu dữ liệu được sắp xếp thành các hàng và cột quan hệ.Mỗi phần của LỚN được sao chép nhiều lần và được tải vào hệ thống tệp để nếumột nút bị lỗi, một nút khác có một bản sao của dữ liệu chứa trên nút bị lỗi Nút Tênđóng vai trò là người hỗ trợ, liên lạc trở lại thông tin máy khách như nút nào có sẵn,trong đó cụm dữ liệu nhất định cư trú và nút nào bị lỗi
Trang 20Khi dữ liệu được tải vào cụm, nó đã sẵn sàng để được phân tích thông quakhung MapReduce Máy khách gửi một công việc của Map Map, thường là mộttruy vấn được viết bằng Java Java cho một trong các nút trong cụm được gọi làTrình theo dõi công việc Trình theo dõi công việc đề cập đến Nút tên để xác định
dữ liệu nào cần truy cập để hoàn thành công việc và vị trí của cụm dữ liệu đó Saukhi xác định, Trình theo dõi công việc sẽ gửi truy vấn đến các nút có liên quan.Thay vì đưa tất cả dữ liệu trở lại vị trí trung tâm để xử lý, xử lý sau đó xảy ra tạimỗi nút đồng thời hoặc song song Đây là một đặc tính thiết yếu của Hadoop
Khi mỗi nút đã xử lý xong công việc đã cho, nó sẽ lưu kết quả Máy kháchkhởi tạo một công việc Giảm Giảm thông qua Trình theo dõi công việc, trong đó kếtquả của giai đoạn bản đồ được lưu trữ cục bộ trên các nút riêng lẻ được tổng hợp đểxác định câu trả lời của Câu đối với truy vấn ban đầu, sau đó được tải vào một nútkhác trong cụm Máy khách truy cập các kết quả này, sau đó có thể được tải vàomột trong một số môi trường phân tích để phân tích Công việc MapReduce hiện đãđược hoàn thành
Khi giai đoạn MapReduce hoàn tất, dữ liệu đã xử lý sẵn sàng để phân tíchthêm bởi các nhà khoa học dữ liệu và những người khác có kỹ năng phân tích dữliệu nâng cao Các nhà khoa học dữ liệu có thể thao tác và phân tích dữ liệu bằngcách sử dụng bất kỳ công cụ nào cho bất kỳ số lượng sử dụng nào, bao gồm tìmkiếm thông tin chi tiết và mẫu ẩn hoặc sử dụng làm nền tảng để xây dựng các ứngdụng phân tích hướng tới người dùng Dữ liệu cũng có thể được mô hình hóa vàchuyển từ các cụm Hadoop vào cơ sở dữ liệu quan hệ hiện có, kho dữ liệu và các hệthống CNTT truyền thống khác để phân tích thêm và / hoặc để hỗ trợ xử lý giaodịch
Kỹ thuật Hadoop
Một ngăn xếp Hadoop làng được tạo thành từ một số thành phần, bao gồm:
● Hệ thống tệp phân tán Hadoop (HDFS): Lớp lưu trữ mặc định trong bất kỳcụm Hadoop cụ thể nào
20
Trang 21● Nút tên: Nút trong cụm Hadoop cung cấp thông tin máy khách về nơi lưutrữ dữ liệu cụ thể của cụm và nếu có bất kỳ nút nào bị lỗi
● Nút phụ: Một bản sao lưu cho Nút tên, nó định kỳ sao chép và lưu trữ dữliệu từ Nút tên nếu nó không thành công
● Trình theo dõi công việc: Nút trong cụm Hadoop khởi tạo và điều phối cáccông việc MapReduce hoặc xử lý dữ liệu
● Nút Slave: Các tiếng lách cách của bất kỳ cụm Hadoop, các nút nô lệ lưutrữ dữ liệu và định hướng để xử lý nó từ Trình theo dõi công việc
Ngoài các thành phần này, hệ sinh thái Hadoop được tạo thành từ một số tiểu
dự án bổ sung Các kho lưu trữ dữ liệu NoQuery như Cassandra và HBase cũngđược sử dụng để lưu trữ kết quả của các công việc MapReduce trong Hadoop.Ngoài Java, một số công việc MapReduce và các hàm Hadoop khác được viết bằngPig, một ngôn ngữ nguồn mở được thiết kế dành riêng cho Hadoop Hive là kho dữliệu nguồn mở do Facebook phát triển ban đầu cho phép mô hình hóa phân tíchtrong Hadoop Dưới đây là các tiểu dự án được tham khảo phổ biến nhất choHadoop
Hive
Hive là một kho dữ liệu giống như kho dữ liệu dựa trên Hadoop do Facebookphát triển ban đầu Nó cho phép người dùng viết các truy vấn bằng ngôn ngữ giốngnhư SQL gọi là HiveQL, sau đó được chuyển đổi thành MapReduce Điều này chophép các lập trình viên SQL không có kinh nghiệm MapReduce sử dụng kho vàgiúp tích hợp dễ dàng hơn với các công cụ trực quan và thông minh kinh doanh nhưMicrostrargety, Tableau, Revolutions Analytics, v.v
Pig
Pig là ngôn ngữ truy vấn dựa trên Hadoop được phát triển bởi Yahoo! Nótương đối dễ học và thông thạo các đường ống dữ liệu rất sâu, rất dài (một hạn chếcủa SQL)
Trang 22HBase là một cơ sở dữ liệu không liên quan cho phép tìm kiếm nhanh, độ trễthấp trong Hadoop Nó bổ sung khả năng giao dịch cho Hadoop, cho phép ngườidùng tiến hành cập nhật, chèn và xóa eBay và Facebook sử dụng HBase rất nhiều
Flume
Flume là một khung để điền dữ liệu Hadoop Các đại lý được tập trung trongtoàn bộ một cơ sở hạ tầng CNTT của Google trong các máy chủ Web, máy chủ ứngdụng và thiết bị di động, ví dụ như để thu thập dữ liệu và tích hợp nó vào Hadoop
Ambari
Ambari là một bộ công cụ dựa trên Web để triển khai, quản trị và giám sátcác cụm Apache Hadoop Sự phát triển của nó đang được dẫn dắt bởi các kỹ sư từHortonworks, bao gồm Ambari trong Nền tảng dữ liệu của Hortonworks
Avro
Avro là một hệ thống tuần tự hóa dữ liệu cho phép mã hóa lược đồ của cáctệp Hadoop Đó là lão luyện trong việc phân tích dữ liệu và thực hiện các cuộc gọithủ tục loại bỏ
Mahout
Mahout là một thư viện khai thác dữ liệu Nó sử dụng các thuật toán khaithác dữ liệu phổ biến nhất để thực hiện phân cụm, kiểm tra hồi quy và mô hìnhthống kê và thực hiện chúng bằng mô hình MapReduce
22