Cách đây chỉ hơn một thập niên trong căn phòng của các doanh nghiệp hay trong phòng làm việc riêng, hình ảnh chiếc máy tính bàn cồng kềnh gắn liền với góc làm việc của mỗi người, mọi dữ liệu đều được lưu trữ trên ổ cứng hay các đĩa CD.Thì hiện nay với sự ra đời của các ứng dụng và điện toán đám mây , cùng với sự bùng nổ của các thiết bị di động, mọi thứ đều được đưa lên hệ thống lưu trử đám mấy Cloud và khai thác thông qua các ứng dụng Mobile. Mỗi cá nhân đều có thể là một đơn vị sản xuất dữ liệu với hàng loạt video, file thông tin, file âm thanh được đăng tải trên các kênh thông tin hằng ngày hằng giờ thậm trí tính bằng giây. Việc số hóa và lưu trữ trên điện toán đám mây này khiến thế giới sinh ra một lượng lớn dữ liệu khổng lồ, vượt quá khả năng xử lý của các cơ sở dữ liệu truyền thống. Từ đó xu hướng Big data hay còn gọi là dữ liệu lớn ra đời để giải quyết các bài toán về lưu trữ và xử lý số liệu. Trong bài báo cáo này sẽ tổng hợp một số điều cần biết về Big data: lịch sử, khái niệm, đặc trưng, cấu trúc,… hay làm thế nào để các doanh nghiệp có thể nắm bắt được cơ hội phát triển lớn từ kho dữ liệu đồ sộ này. Bài báo cáo sẽ cho người đọc cái nhìn tổng quan về Big data để từ đó có thể vận dụng một cách hợp lý Big data vào từng lĩnh vựng cụ thể.
Trang 1LỜI NÓI ĐẦU
Cách đây chỉ hơn một thập niên trong căn phòng của các doanh nghiệp haytrong phòng làm việc riêng, hình ảnh chiếc máy tính bàn cồng kềnh gắn liền vớigóc làm việc của mỗi người, mọi dữ liệu đều được lưu trữ trên ổ cứng hay cácđĩa CD.Thì hiện nay với sự ra đời của các ứng dụng và điện toán đám mây ,cùng với sự bùng nổ của các thiết bị di động, mọi thứ đều được đưa lên hệthống lưu trử đám mấy Cloud và khai thác thông qua các ứng dụng Mobile Mỗi
cá nhân đều có thể là một đơn vị sản xuất dữ liệu với hàng loạt video, file thôngtin, file âm thanh được đăng tải trên các kênh thông tin hằng ngày hằng giờthậm trí tính bằng giây Việc số hóa và lưu trữ trên điện toán đám mây nàykhiến thế giới sinh ra một lượng lớn dữ liệu khổng lồ, vượt quá khả năng xử lýcủa các cơ sở dữ liệu truyền thống Từ đó xu hướng Big data hay còn gọi là dữliệu lớn ra đời để giải quyết các bài toán về lưu trữ và xử lý số liệu Trong bàibáo cáo này sẽ tổng hợp một số điều cần biết về Big data: lịch sử, khái niệm, đặctrưng, cấu trúc,… hay làm thế nào để các doanh nghiệp có thể nắm bắt được cơhội phát triển lớn từ kho dữ liệu đồ sộ này Bài báo cáo sẽ cho người đọc cáinhìn tổng quan về Big data để từ đó có thể vận dụng một cách hợp lý Big datavào từng lĩnh vựng cụ thể
Trang 2DANH MỤC BẢNG BIỂU
CHƯƠNG I SỰ CẦN THIẾT NGHIÊN CỨU BIG DATA, KHÁI NIỆM, ĐẶC TRƯNG VÀ SỰ KHÁC BIỆT CỦA BIG DATA VỚI DỮ LIỆU
TRUYỀN THỐNG 1.1Sự cần thiết nghiên cứu Big data
1.1.1 Sự hình thành big data và nguồn khai thác và quản lý big data
Từ khi biết đến sự tồn tại và phát triển vượt bậc của Big data, nhiều câu hỏi
đã được đặt ra là “Big data đến từ đâu?” Dưới đây là tổng hợp một số nguồn mà
từ đó dữ liệu sinh ra ngày một tăng để đưa đến khái niệm Big data
Hình I.1: Sự hình thành BIG DATA
Hiện nay, mỗi ngày con người tạo ra 2.5 quintillion(1030) byte dữ liệu Khốilượng dữ liệu mới được tạo ra nhiều và nhanh đến mức mà hai năm gần đây nhấtchiếm đến 90% khối lượng dữ liệu trên thế giới hiện nay Những dữ liệu lớn này
Trang 3được tạo ra từ nhiều nguồn khác nhau Hình trên là tổng hợp một số nguồn phátsinh điển hình:
(1) Dữ liệu được tạo ra từ Social media: tức là dữ liệu được tạo ra từ một mạng xã
hội Không đơn thuần là mạng xã hội như Facebook, tweeter,… mà nó còn baogồm cả thông tin trong một công ty như mạng lưới nhân viên, khách hàng,…Một ví dụ minh họa cho nguồn dữ liệu này như tweeter mỗi ngày có 230 triệutweets, hay 2.7 triệu comment trên Facebook, đối với trang Youtube có 86400giờ video được tải lên
(2) Dữ liệu được tạo ra từ Machine Data: thông tin này được tính bao gồm thông
tin trong quá trình vận hành các máy công nghiệp như dữ liệu sinh ra từ các cảmbiến, thông tin weblog…
(3) Dữ liệu được tạo ra từ các Transations: bao gồm các thông tin về các giao
dịch phát sinh từ khách hàng hay trong các nhà cung cấp và phân phối (sảnphẩm, giá sản phẩm, phương thức thanh toán,…) Ví dụ điển hình của nguồn dữliệu này là dữ liệu của Amazon (ví dụ quý 3 năm 2011 số giao dịch trong hệthống đã lên tới 10 tỉ $)
Nguồn gốc khác hình thành Big data: (1)Dữ liệu hành chính (phát sinh từchương trình của một tổ chức, có thể là chính phủ hay phi chính phủ) Ví dụ, hồ
sơ ý tế điện tử ở bệnh viện, hồ sơ bảo hiểm, hồ sơ ngân hàng,…; (2)Dữ liệu từhoạt động thương mại (phát sinh từ các giao dịch giữa hai thực thể) Ví dụ, cácgiao dịch thẻ tín dụng, giao dịch trên mạng, bao gồm các thiết bị di động; (3)Dữliệu từ các thiết bị cảm biến như thiết bị cảm biến đường, cảm biến khí hậu, ảnhchụp vệ tinh,… ; (4)Dữ liệu các thiết bị theo dõi, ví dụ như theo dõi camera giaothông, theo dõi thiết bị di động, GPS,… ; (5)Dữ liệu từ các hoạt động, ví dụ nhưtìm kiếm trực tuyến (mặt hàng, sản phẩm, thông tin,…),… ; (6)Dữ liệu từ cácthông tin về ý kiến, quan điểm của cá nhân, tổ chức, trên các phương tiện thôngtin xã hội
Phương pháp khai thác và quản lí Big data hiện nay được thiết kế phù hợpdựa theo các nguồn hình thành Big data Mỗi nguồn dữ liệu khác nhau sẽ có các
Trang 41.1.2 Sự lớn của Big data và ảnh hưởng của Big data
Eric Schmidt, CEO điều hành của Google cho biết: Cứ hai ngày, lượngthông tin được tạo ra bằng từ thời bình minh của nền văn minh loài người chođến năm 2003
Hình I.2: Eric Schmidt nói về Big data
Theo nghiên cứu của Văn phòng công nghệ kinh doanh của McKinsey (việnnghiên cứu toàn cầu) thống kê : trong các nền kinh tế phát triển Châu Âu, cácnhà quản lý của chính phủ có thể tiết kiệm được hơn 100 tỷ Euro (149 tỷ USD)trong cải tiến hiệu quả hoạt động bằng cách sử dụng Big data, không bao gồm sửdụng Big data để giảm gian lận và sai sót và tăng thu thuế Và người sử dụngdịch vụ được kích hoạt bởi dữ liệu cá nhận- vị trí có thể nắm bắt 600 tỷ USDthặng dư tiêu dùng
Theo công bố cúa IDC: thị trường Big data sẽ tăng từ hơn 130 tỷ $ đến
203 tỷ $ vào năm 2020 (dự báo được công bố vào 03 tháng 10 năm 2016), 46%các công ty đầu tư vào dữ liệu lớn vào năm 2016 tăng 3% so với năm 2015
Trang 51.2Khái niệm về big data
Theo Wikipedia: Big data là một thuật ngữ chỉ bộ dữ liệu lớn hoặc phức tạp
mà các phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này.Theo Gartner (tổ chức nghiên cứu thị trường toàn cầu) công bố năm 2012thì: Big data là những nguồn thông tin có đặc điểm chung khối lượng lớn, tốc độnhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn khaithác đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối
ưu hóa quy trình
Có nghĩa là: Big data (dữ liệu lớn) là thuật ngữ dùng để chỉ một tập hợp dữliệu lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyềnthống không thể nào đảm đương được Tuy nhiên, Big data lại chứa trong mìnhrất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiềucho việc kinh doanh, nghiên cứu khoa học, dư đoán các dịch bệnh sắp phát sinh
và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực Chính
vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻtheo một cách khác so với bình thường
1.3Đặc trưng 5V của big data
Hiện nay, để mô hình hóa Big data trên toàn cầu người ta căn cứ vào tiêuchuẩn 5V của Big data, năm tính chất quan trọng của Big data
Trang 6Hình I.3: Mô hình 5V của Big data
1.3.1 Volume (số lượng lưu trữ)
Đây là đặc điểm tiêu biểu nhất của Big data, khối lượng dữ liệu rất lớn Kích
cớ của Big data đang từng ngày tăng lên nhanh chóng, và tính đến năm 2012đơn vị tính của Big data sẽ nằm trong khoảng vài chục terabyte cho đến nhiềupetabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu Dữ liệutruyền thống có thể lưu trữ trên các đĩa mềm, đĩa cứng Theo IDC, thế giới sẽtạo ra khoảng 180 nghìn tỷ gigabyte vào năm 2025, tăng từ dưới 10 wattabytevào năm 2015 Nhưng với dữ liệu lớn Big data thì cần sử dụng công nghệ “đámmây” mới đáp ứng khả năng lưu trữ được dữ liệu lớn
1.3.2 Velocity (tốc độ xử lý)
Tốc độ có thể hiểu theo hai khía cạnh: (a) Khối lượng dữ liệu gia tăng rấtnhanh (mỗi giây có tới 72,9 triệu các yêu cầu truy cập tìm kiếm trên web bánhàng của Amazon); (b)Xử lý dữ liệu nhanh ở mức sát với thời gian thực real-time, có nghĩa dữ liệu được xử lý ngay tức thời sau khi chúng phát sinh Cácứng dụng phổ biến trên lĩnh vực Internet, tài chính, ngân hàng, hàng không,quân sự, y tế sức khỏe như hiện nay phần lớn dữ liệu được xử lý đạt tới real-
Trang 7time Công nghệ xử lý Big data ngày nay đã cho phép con người xử lý tức thờitrước khi chúng được lưu vào cơ sở dữ liệu.
1.3.3 Variety (đa dạng chủng loại)
Đối với dữ liệu truyền thống thường được nhắc đến dữ liệu có cấu trúc (filetập tin,văn bản), thì ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc (blog,hình ảnh, video, bài hát, dữ liệu từ các thiết bị cảm biến vật lý, thiết bị chăm sócsức khỏe,…) Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khácnhau Ví dụ, với các bình luận của một nhóm người dùng nào đó trên facebookvới thông tin video được chia sẻ từ Youtube
1.3.4 Veracity (Độ tin cậy)
Một trong những tính chất phức tạp nhất của Big data là độ tin cậy của dữliệu Với xu hướng Phương tiện truyền thông xã hội (Social Media) và mạng xãhội (Social Network) ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻcủa người dùng Mobile làm cho bức tranh xác định về độ tin cậy, chính xác của
dữ liệu ngày càng khó khăn hơn Bài toán phân tích và loại bỏ dữ liệu thiếuchính xác và nhiễu đang là tính chất quan trọng của Big data
1.3.5 Value (giá trị)
Giá trị là đặc điểm quan trọng nhất của Big data, vì khi bắt đầu triển khai xâydựng dữ liệu lớn thì việc đầu tiên cần phải làm rõ đó là xác định đươc giá trị củathông tin mang lại như thế nào, khi đó mới quyết định có nên triển khai dữ liệulớn hay không Nếu sở hữu Big data mà chỉ nhận được 1% lợi ích từ nó, thìkhông nên đầu tư vào phát triển Big data Kết quả dự báo chính xác thể hiện rõnét nhất về giá trị của Big data mạng lại Ví dụ, từ khối dữ liệu phát sinh trongquá trình khám, chữa bệnh sẽ giúp dự báo về sức khỏe được chính xác hơn, sẽgiảm được chi phí điều trị và các chi phí liên quan
Trang 81.4Sự khác biệt giữa big data với giữ liệu truyền thống
Big data khác với dạng dữ liệu truyền thống ở 4 đặc điểm cơ bản: Dữ liệu đadạng hơn, lưu trữ được dữ liệu lớn hơn, truy vẫn dữ liệu nhanh hơn, độ chínhxác cao hơn
1.4.1 Dữ liệu đa dạng hơn
Khi khai thác dữ liệu truyền thống (dữ liệu có cấu trúc), thường phải đặt racác câu hỏi: Dữ liệu lấy ra kiểu gì? Định dạng dữ liệu như thế nào? Đối với Bigdata, không phải trả lời các câu hỏi trên Hay nói khác, khi khai thác, phân tích
dữ liệu Big data không cần phải quan tâm đến kiểu dữ liệ và định dạng củachúng, điều quan tâm là giá trị mà dữ liệu mang lại có đáp ứng được cho côngviệc hiện tại và tương lai không
1.4.2 Lưu trữ dữ liệu lớn hơn
Lưu trữ dữ liệu truyền thống vô cùng phức tạp và luôn đặt ra câu hỏi lưu nhưthế nào? Dung lượng khi lưu trữ bao nhiêu là đủ? Gắn kèm với câu hỏi đó là chiphí đầu tư tương ứng Công nghệ lưu trữ Big data hiện nay đã phần nào có thểgiải quyết được vấn đề trên nhờ những công nghệ lưu trữ đám mây, phân phốilưu trữ dữ liệu phân tán và có thể kết hợp các dữ liệ phân tán lại với nhau mộtcách chính xác và xử lý nhanh trong thời gian thực
1.4.3 Truy vấn dữ liệu nhanh hơn
Big data được cập nhật liên tục, trong khi đó kho dữ liệu truyền thống thì lâulâu mới được cập nhật và trong tình trạng không theo dõi thường xuyên gây nêntình trạng lỗi cấu trúc truy vẫn dấn đến không tìm kiếm được thông tin đáp ứngyêu cầu
1.4.4 Độ chính xác cao hơn
Big data khi đưa vào sử dụng thường được kiểm định lại dữ liệu với nhữngđiều kiện chặt chẽ, số lượng thông tin được kiểm tra thông thường rất lớn, vàđảm bảo về nguồn lấy dữ liệu không có sự tác động của con người vào thay đổi
số liệu thu thập
Trang 9CHƯƠNG II GIẢI PHÁP CÔNG NGHỆ PHÂN TÍCH BIG DATA VÀ
CÁCH THỨC TRIỂN KHAI BIG DATA 2.1Giải pháp công nghệ phân tích Big data
2.1.1 Giải pháp công nghệ lưu trữ và phân tích Hadoop ecosystem
Apache Hadoop là nền tảng mềm mã nguồn mở, miễn phí, dựa trên java,cung cấp một nền tảng phân tán mạnh để lưu trữ và quản lý Big data Bản quyềnApache V2 license Nó chạy ứng dụng trên các cụm phần cứng lớn và xử lýhàng ngàn terabyte dữ liệu trên hàng ngàn nodes Hadoop lấy cảm hứng từGoogle MapReduce và Google File System (GFS) Điểm mạng của nền tảnghadoop là cung cấp độ tin cậy và tính năng sẵn sang cao
Hình II.4: Công nghệ Hadoop ecosystem
Trang 10Hình II.5: Hadoop MaReduce
2.1.1.2 Hadoop Distributed File System (HDFS)
Là hệ thống tập tin ảo Có một sự khác biệt lớn giữa các hệ thống tập tinkhác và Hadoop Khi di chuyển một tập tin trên HDFS, nó sẽ tự động chia thànhnhiều mảnh nhỏ Các mảnh nhỏ của tập tin sẽ được phân rộng và lưu trữ trênnhiều máy chỉ khác (thường là ba) để tăng sức chịu lỗi và tính sẵn sàng cao
Trang 11Hình II.6: Hadoop Distributed File System
Hadoop là một Framework mã nguồn mở hỗ trợ lưu trữ và xử lý Big data vớicác cấu trúc khác nhau (kể cả không cấu trúc) trên những mãy chủ bình thường.Hadoop có nhiều lợi thế so với các framework khác:
• Khả năng mở rộng: cho phép thay đổi số lượng phần cứng mà không cần thayđổi định dạng dữ liệu hay khởi động lại hệ thống
• Hiệu quả chi phí: hỗ trợ lưu trữ và xử lý song song trên những máy chủ bìnhthường
• Linh hoạt: hỗ trợ bất kỳ loại dữ liệu từ bất kỳ nguồn nào
• Chịu lỗi: thiếu dữ liệ và phân tích thất bại và hiện tượng thường gặp trong phântích Big data Hadoop có thể phục hồi và phát hiện nguyên nhân thất bại do tắcnghẽn mạng
Bên cạnh hai phần lõi thì, Hadoop cũng chứa một số module:
• Hadoop Common: các tiện ích thông dụng cho các module khác của Hadoop
• Hadoop Yarn: một nền tảng cho lập lịch và quản lý tài nguyên cụm (cluster)
Trang 122.2Triển khai khai thác Big data
2.2.1 Đánh giá thực trạng về quản lý dữ liệu tại đơn vị có nhu cầu triển khai
Đây là bước đầu tiên trong quá trình bắt tay vào thực hiện Bước này có vaitrò quan trọng trong việc nhìn nhận thực trạng dữ liệ của đơn vị quản lý như thếnào dựa vào đó đưa ra kế hoạch cụ thể điều chỉnh về hoạt động quản lý và khaithác dữ liệu khi triển khai Big data
Theo nguồn thông tin được tổng hợp trên website của các lãnh đạo công nghệthông tin và an toàn thông tin Đông Nam Á CIO CSO 2014: Dịch vụ tài chínhnăm 2015 đầu tư vào dữ liệu lớn là 6.4 tỷ USD và dự kiến tăng 22%, lập trìnhphần mềm năm 2015 đầu tư khoảng 2.8 tỷ USD vào dữ liệu lớn và dự kiến tăng26%, hoạt động chính phủ năm 2015 đầu tư 2.8 tỷ USD vào đầu tư dữ liệu lớn,
dự kiến tăng 22% và lĩnh vực đa phượng tiện năm 2015 đầu tư vào dữ liệu lớn là1.2 tỷ USD với mức dự kiến tăng là 40%
2.2.2 Xác định vấn đề muốn giải quyết dựa trên vấn đề đánh giá
Đây là bước thứ hai trong việc triển khai khai thác Big data Từ việc đánhgiá thực trạng cần xác định được một số những nội dụng quan trọng sau đây:
• Xác định được có dữ liệu hay không để triển khai Big data về vấn đề muốn giải quyết
Ở đây cần xem xét chi tiết về dữ liệu đã được đánh giá thực trạng có đủ đểđáp ứng giải quyết được vấn đề không Nếu trường hợp có dữ liệu mà vẫn không
đủ đạp ứng triển khai Big data thì sẽ phải điều chỉnh nguồn thu thập thông tin.Nếu trường hợp đánh giá thực trạng mà không có dữ liệu thì không thể triển khaiBig data
• Xác định Big data có thực sự phù hợp để giải quyết vấn đề này
Việc xác định Big data có thực sự phù hợp để giải quyết vấn đề đang gặpphải không, trước tiên cần trả lời và hoạch định rõ tính chất “Value” Big data đốivới vấn đề hoặc bài toán đang quan tâm Đây cũng là chứ “V” quan trọng nhấttrong mô hình 5V Ví dụ: Amazong là một web Commerce đã đặt ra mục tiêuthay vì “làm sao để bán hàng?” thì công ty đã xác định luôn “làm sao để bán mặthàng tiếp theo?” Và với mô hình kinh doanh Online/Offline này Amazon đã tận
Trang 13dụng Big data rất hiệu quả cho việc tối ưu hóa các quy trình vận hàng từ tự độngcho đến bán tự động Hệ thống website, marketing và CRM của công ty hoạtđộng trên Big data để thấu hiểu nhu cầu khách hàng khi mua sắm trên Amazon.
Hệ thống Recommendation của Amazon được xem là một trong những hệ thốngkhuyến nghị người dùng mua sắp tối nhất thế giới với lợi thế vượt trội hơnGoogle, Facebook ở dữ liệu mua bán của người tiêu dùng
2.2.3 Xây dựng cấu trúc tổng thể của Big data
Hoàn toàn không thể đưa ra giải pháp tối ưu nhất cho bất kỳ giải pháp Bigdata nào, tuy nhiên với mỗi giải pháp có thể dựa trên khối xây dựng cơ bảntrong triến trúc Big data