BIG DATA – dữ liệu lớn
Trang 1NHẬP MÔN ĐIỆN TOÁN Bài tập lớn
BIG DATA – DỮ LIỆU LỚN
Giáo viên giảng dạy:
GV Trần Ngọc Thịnh Nhóm: 101
Trang 2BIG DATA
-DỮ LIỆU LỚN
Trang 3MỤC LỤC
ĐỊNH NGHĨA 3
I LỊCH SỬ CỦA BIG DATA 3
II CÁC ĐẶC TRƯNG CỦA BIG DATA 5
III KHÍA CẠNH KỸ THUẬT CỦA BIG DATA 7
1 Luồng dữ liệu trong Big Data [5] 7
2 Nền tảng Hadoop [6] 9
IV ỨNG DỤNG CỦA BIG DATA 10
V TƯƠNG LAI VÀ THÁCH THỨC CỦA BIG DATA 12
VI KẾT LUẬN 13
II TÀI LIỆU THAM KHẢO 14
Trang 4ĐỊNH NGHĨA
- Dữ liệu lớn (Big data) được định nghĩa khái quát là sự thu thập, quản lý và phân tích
dữ liệu, những việc đó đã vượt xa dữ liệu cấu trúc tiêu biểu (typical), nó có thể được truy vấn với hệ thống quản lý dữ liệu quan hệ — thường với những tệp phi cấu trúc (unstructured files), video kỹ thuật số, hình ảnh, dữ liệu cảm biến, tệp lưu nhật ký, thực sự bất cứ dữ liệu nào không có trong hồ sơ với các phạm vi tìm kiếm khác Trong một số ý nghĩa, dữ liệu phi cấu trúc là dữ liệu thú vị, nhưng nó khó tổng hợp vào BI (Business Intelligence) hoặc rút trích ra những kết luận từ nó trừ khi nó có thể tương quan với dữ liệu có cấu trúc [1]
- Dữ liệu lớn (Big data) là thuật ngữ dùng để để mô tả các bộ dữ liệu có kích thước rất lớn, khả năng phát triển nhanh, và rất khó thu thập, lưu trữ, quản lý và phân tích với các công cụ thống kê hay ứng dụng cơ sở dữ liệu truyền thống [2]
I LỊCH SỬ CỦA BIG DATA
Câu chuyện của Big Data đã bắt đầu từ nhiều năm trước, khi các tin đồn gây nhiễu còn chưa tràn lan như hiện nay Bảy mươi năm đã qua kể từ lần đầu tiên chúng ta cố gắng định lượng mức độ tăng trưởng của khối lượng dữ liệu, hay còn gọi là tốc độ bùng nổ thông tin (thuật ngữ được sử dụng lần đầu tiên năm 1941, theo The Oxford English Dictionary), có thể liệt kê một số cột mốc lịch sử quan trọng về quá trình đánh giá kích thước dữ liệu cũng như những đổi mới cơ bản trong ý tưởng xây dựng dữ liệu lớn và các quan sát có liên quan như sau:
- Năm 1944, Fremont Rider – quản lý thư viện trường đại học Wesleyan, đã xuất bản cuốn The Scholar and the Future of the Research Libriary Ông ước tính rằng thư viện của các trường đại học ở Mỹ đã phát triển gấp đôi chỉ trong vòng 16 năm
Trang 5- Năm 1961, Derek Price xuất bản Science Since Babylon, trong đó ông biểu thị sự phát triển của kiến thức khoa học dựa trên sự tăng trưởng về số lượng các tạp chí khoa học và tài liệu Ông kết luận rằng số lượng tạp chí mới đã phát triển theo cấp số nhân
- Tháng 11 năm 1967, B.A Maron và P.A.D de Maine công bố nghiên cứu “Automatic data compression” trên tờ Communications of the ACM, cho rằng khái niệm “bùng nổ thông tin” được chú ý trong những năm gần đây khiến cho yêu cầu lưu trữ tất cả thông tin
ở mức tối thiểu trở nên cần thiết hơn bao giờ hết Bài báo mô tả “chiếc máy nén ba phần” hoàn toàn tự động và nhanh nhẹn, có thể sử dụng với bất cứ khối thông tin nào nhằm giảm đáng kể các yêu cầu lưu trữ từ phía ngoài và tăng tốc độ truyền tải thông tin trên máy tính
- Tháng 4 năm 1980, I.A Tjomsland tổ chức một cuộc đối thoại với chủ đề “Từ Nay Chúng Ta Sẽ Đi Về Đâu?” tại hội nghị IEEE lần thứ tư về hệ thống tập trung dữ liệu
- Năm 1981, văn phòng thống kê trung ương Hungary bắt đầu dự án nghiên cứu ngành công nghiệp thông tin của đất nước, bao gồm việc đo lường khối lượng thông tin bằng
“bits”, và ngày nay vẫn còn tiếp tục thực hiện
- Tháng 7 năm 1986, Hal B Becker cho xuất bản cuốn “Liệu Người Sử Dụng Có Thể Thực Sự Hấp Thu Dữ Liệu Với Tốc Độ Hiện Nay? Còn Ngày Mai Thì Sao?” trên tờ Data Communications
- Tháng 9 năm 1990, Peter J Denning công bố tác phẩm “Saving All the Bits” trên tờ American Scientist Denning nói rằng: “Sự cấp thiết của việc lưu tất cả các bit đưa chúng
ta vào đến tình thế không thể giải quyết: Tốc độ và khối lượng dòng thông tin làm tắc nghẽn mạng lưới, thiết bị lưu trữ và hệ thống phục hồi của chúng ta, cũng như khả năng nhận thức của con người… Loại máy nào chúng ta có thể chế tạo ra để điều khiển luồng
dữ liệu của một nhạc cụ hoặc sàng lọc cơ sở dữ liệu ghi âm, và cung cấp cho ta bản thống
kê tóm tắt về những gì đang hiện hữu?
- Tháng 10 năm 1997 Michael Cox và David Ellsworth trình bày “Application-controlled demand paging for out-of-core visualization” trong chuỗi các hoạt động của Hội nghị IEEE lần thứ 8 Mở đầu bài viết nêu lên “Bộ nhớ ngoài cung cấp thách thức thú vị cho các hệ điều hành máy tính: bộ dữ liệu nói chung là khá lớn, yêu cầu gay gắt về năng lực của bộ nhớ chính, đĩa cục bộ, và thậm chí cả ổ đĩa tách biệt Chúng tôi gọi đây là vấn đề của big data (dữ liệu lớn) Khi tập hợp dữ liệu không phù hợp trong bộ nhớ chính (trong lõi), hoặc khi chúng không phù hợp với ngay cả trên đĩa cục bộ, giải pháp phổ biến nhất
là giành lấy nhiều nguồn hơn.”Đây là bài viết đầu tiên trong thư viện số ACM sử dụng thuật ngữ “Big Data”
Trang 6- Tháng 4 năm 1998 John R Masey, Giám đốc khoa học SGI, trình bày nghiên cứu “Big
Data…and the Next Wave of Infrastress” tại một cuộc họp của USENIX.
- Tháng 11 năm 2000, Francis X Diebold trình bày với Đại hội Thế giới lần thứ VIII của Hiệp hội kinh tế lượng một tài liệu có tiêu đề “ Big Data Dynamic Factor Models for Macroeconomic Measurement and Forecasting“ Trong đó ông khẳng định rằng: “Gần đây, nhiều ngành khoa học, như vật lý, sinh học, khoa học xã hội, vốn đang buộc phải đương đầu với khó khăn – đã thu được lợi từ hiện tượng Big Data và đã gặt hái được nhiều thành công Big Data chỉ sự bùng nổ về số lượng (và đôi khi, chất lượng), khả năng liên kết cũng như độ có sẵn của dữ liệu, chủ yếu là kết quả của những tiến bộ gần đây và chưa từng có trong việc ghi lại dữ liệu và công nghệ lưu trữ ”
- Tháng 3 năm 2007 John F Gantz, David Reinsel và các nhà nghiên cứu khác của IDC đã đưa ra thông cáo báo với tựa đề “The Expanding Digital Universe: A Forecast of Worldwide Information Growth through 2010” Đây là nghiên cứu đầu tiên ước tính và
dự báo số lượng dữ liệu kỹ thuật số được tạo ra và nhân rộng mỗi năm
- Tháng 9 năm 2008, A special issue of Nature on Big Data nghiên cứu ý nghĩa của các bộ
dữ liệu lớn đối với khoa học hiện đại
- Tháng 2 năm 2010, Kenneth Cukier đăng trên tờ The Economist a Special Report bài viết
có tựa đề “Data, data everywhere” Cukier viết: “… thế giới chứa một số lượng thông tin
số lớn đến mức không tưởng, và càng ngày càng được nhân rộng với tốc độ nhanh hơn bao giờ hết… Hiệu quả đã được thể hiện ở khắp mọi nơi, từ kinh doanh đến khoa học, từ chính phủ cho nghệ thuật Các nhà khoa học và kỹ sư máy tính đã đặt ra một thuật ngữ mới cho hiện tượng này: Big Data”
- Tháng 5 năm 2012, Danah Boyd và Kate Crawford đưa ra luận điểm của họ trong bài
“Critical Question for Big Data” trên tờ Information, Communications and Society Họ định nghĩa Big Data như là “một hiện tượng văn hóa, công nghệ và học thuật dựa trên sự tương tác của: (1) Công nghệ tối đa hóa sức mạnh tính toán và độ chính xác thuật toán để thu thập, phân tích, liên kết, và so sánh các tập dữ liệu lớn (2) Phân tích: tạo ra trên dữ liệu lớn để xác định mô hình để làm cho tuyên bố kinh tế, xã hội, kỹ thuật và pháp lý (3) Thần thoại: Niềm tin phổ biến rằng dữ liệu lớn cung cấp một hình thức cao hơn của trí thông minh và kiến thức có thể tạo ra mà những hiểu biết mà trước đây không thể, với hào quang của sự thật, khách quan, chính xác.” [3]
II CÁC ĐẶC TRƯNG CỦA BIG DATA
Có 4 đặc trưng của Big Data như sau: [4]
Trang 71 Volume: là sự tăng trưởng về mặt khối lượng Dữ liệu trong các hệ thống thông tin
luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng) Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng Terabyte và Petabyte
2 Velocity: là sự tăng trưởng về mặt tốc độ Bên cạnh sự tăng trưởng về khối lượng, tốc
độtăng trưởng của dữ liệu cũng tăng lên một cách chóng mặt Một ví dụ đơn giản là trên các mạng xã hội đôi khi các thông báo cách đó vài giây (tweet, status,….) đã là
cũ và không được người dùng quan tâm Người dùng thường loại bỏ các tin nhắn cũ
và chỉ chú ý đến các cập nhật gần nhất Sự chuyển động của dữ liệu bây giờ hầu như
là thực tế (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây
3 Variety: là sự tăng lên về tính đa dạng của dữ liệu Dữ liệu không chỉ ở dạng có cấu
trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ liệu cảm biến, cũng như các file log Dữ liệu của một doanh nghiệp hay một hệ thống thông tin ngày nay không còn đơn giản chỉ có một hoặc một vài loại dữ liệu nữa, mà tính đa dạng của nó cũng đang ngày càng tăng lên làm cho tính phức tạp của dữ liệu ngày càng phức tạp hơn
4 Veracity: là tính xác thực của dữ liệu Với xu hướng Social ngày nay và sự gia tăng
mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định
về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big Data
Trang 8Hình 1: Bốn chữ V - Đặc trưng của Big Data
III KHÍA CẠNH KỸ THUẬT CỦA BIG DATA
1 Luồng dữ liệu trong Big Data [5]
Hệ thống Big data thường lớn và phức tạp, nó cung cấp các chức năng để xử lý Big Data từ lúc hình thành đến lúc kết thúc Thường luồng dữ liệu trong Big Data được phân làm 4 giai đoạn: Nguồn tạo ra dữ liệu, Thu thập dữ liệu, Lưu trữ dữ liệu và Phân tích dữ liệu Hình 1 bên dưới mô tả các công nghệ liên quan đến 4 giai đoạn của luồng dữ liệu:
Trang 9Hình 2: Bản đồ công nghệ của Big data theo luồn dữ liệu
Nguồn tạo ra dữ liệu:
Do sự phát triển vượt bậc của các công nghệ hiện đại nên nguồn tạo ra dữ liệu ngày càng phát triển mạnh mẽ Thật vậy, IBM ước tính rằng 90% dữ liệu trong thế giới ngày nay đã được tạo ra trong 2 năm qua Nguyên nhân của sự bùng nổ
dữ liệu này cũng có nhiều tranh cãi Theo sự bùng nổ dữ liệu có liên hệ mật thiết đến sự phát triển của công nghệ thông tin, được chia làm 3 giai đoạn như sau:
Giai đoạn 1: bắt đầu từ những năm 1990 Khi công nghệ số và những hệ
thống cơ sở dữ liệu được áp dụng rộng rãi, nhiều tổ chức đã sử dụng chúng để lưu trữ những dữ liệu lớn của họ như các giao dịch trong lãnh vực ngân hàng hay các trung tâm tài chính, các tài liệu của chính phủ… Đây là những dữ liệu
có cấu trúc và được phân tích thông qua hệ thống CSDL quan hệ
Giai đoạn 2: giai đoạn 2 bắt đầu bằng sự bùng nổ của Internet Vào những
năm cuối của thập niên 90, hệ thống Web 1.0, đặc trưng bởi các công cụ tìm kiếm và thương mại điện tử, tạo ra 1 lượng lớn dữ liệu bán cấu trúc và/hoặc không cấu trúc, bao gồm các trang web và lịch sử giao dịch Kể từ những năm
2000, rất nhiều các ứng dụng Web 2.0 đã tạo ra một lượng dữ liệu phong phú các dữ liệu do người dùng đóng góp từ các diễn đàn, nhóm, blog, các trang web, mạng xã hội
Trang 10 Giai đoạn 3: được kích thích bởi các thiết bị di động như điện thoại thông
minh, máy tính bảng, cảm biến và các thiết bị hỗ trợ Internet dựa trên cảm biến Với cách phân loại này, chúng ta thấy rằng các mô hình tạo dữ liệu phát triển 1 cách nhanh chóng, từ lưu trữ thụ động trong giai đoạn 1 đến tạo dữ liệu tích cực trong giai đoạn 2 và tạo dữ liệu tự động trong giai đoạn 3 Ba loại dữ liệu này chính là nguồn dữ liệu chính của Big Data, trong đó các dữ liệu tự động sẽ đóng góp nhiều nhất trong tương lai gần
Thu thập dữ liệu:
- Thu nhận dữ liệu
- Truyền dữ liệu
- Tiền xử lý dữ liệu
Lưu trữ dữ liệu:
- Hệ thống tập tin
- Cơ sở dữ liệu
- Những mô hình lập trình
Phân tích dữ liệu:
- Những phương pháp phân tích chung
- Dữ liệu trực quan (Data Visualization)
- Phân tích thống kê
- Khai phá dữ liệu
- Những phương pháp phân tích mới trong Big Data
- Phân tích cấu trúc dữ liệu
- Phân tích văn bản
- Phân tích Web
- Phân tích đa phương tiện
- Phân tích mạng
- Phân tích di động
2 Nền tảng Hadoop [6]
Hadoop đã được tạo ra vào năm 2005 bởi Doug Cutting và Mike Cafarella để giải quyết các vấn đề của Big Data Hadoop là một framework mã nguồn mở hỗ trợ lưu trữ và xử lý Big Data với các cấu trúc khác nhau (kể cả không cấu trúc) trên những máy chủ bình thường Hadoop có nhiều lợi thế so với các framework khác:
Khả năng mở rộng: cho phép thay đổi số lượng phần cứng mà không cần thay
đổi định dạng dữ liệu hay khởi động lại hệ thống
Hiệu quả chi phí: hỗ trợ lưu trữ và xử lý song song trên những máy chủ bình
thường
Trang 11 Linh hoạt: hỗ trợ bất kỳ loại dữ liệu từ bất kỳ nguồn nào
Chịu lỗi: thiếu dữ liệu và phân tích thất bại là hiện tượng thường gặp trong
phân tích tích Big Data Hadoop có thể phục hồi và phát hiện nguyên nhân thất bại do tắc nghẽn mạng
Hadoop gồm nhiều module kết hợp với nhau hỗ trợ tất cả các giai đoạn trong luồng Big Data từ giai đoạn thu thập đến phân tích và quản lý dữ liệu
Giai đoạn Module Mô tả
Thu thập dữ
liệu
Flume Thu thập, tập hợp và chuyển 1 lượng lớn dữ liệu từ
các nguồn khác nhau về trung tâm lưu trữ Sqoop Cho phép dễ dàng nhập và xuất dữ liệu giữa Hadoop
và các kho dữ liệu có cấu trúc
Lưu trữ dữ liệu
HDFS Hệ thống file phân phối có thể chạy trên những máy
chủ bình thường, dựa trên thiết kế của GFS Gồm 1 NameNode để quản lý file metadata và nhiều DataNode để lưu trữ dữ liệu thực tế Một file được chia làm nhiều khối và các khối sẽ lưu trong các DataNode
Hbase CSDL hướng cột dựa trên Bigtable của Google
Tính toán
MapReduce Là cốt lõi tính toán để phân tích Big Data
MapReduce framework sẽ gồm 1 master và 1 slave trên mỗi node Master có trách nhiệm lập kế hoạch cho những slave, theo dõi và thực hiện lại các nhiệm
vụ thất bại Các slave thực hiện các nhiệm vụ theo chỉ dẫn của của master Gồm 2 chức năng chính: map và reduce
Phân tích dữ
liệu
Pig Latin Ngôn ngữ cho xử lý dữ liệu Hive Tổng hợp dữ liệu và truy vấn adhoc Mahout Thư viện khai phá dữ liệu và máy học, gồm 4 nhóm:
lọc tập hợp, gom cụm, phân loại, khai phá mô hình theo hướng song song
Quản lý Zokeeper Là 1 trung tâm dịch vụ cho việc bảo trì cấu hình, đặt
tên, đồng bộ phân phối và cung cấp các dịch vụ theo nhóm
Chukwa Chịu trách nhiệm theo dõi tình trạng hệ thống và có
Trang 12thể hiển thị, giám sát và phân tích các dữ liệu thu thập được
IV ỨNG DỤNG CỦA BIG DATA
Big Data và các ứng dụng có liên quan đang ngày càng được sử dụng rộng rãi trong các
tổ chức, trong các lĩnh vực khác nhau, nhằm giảm thiểu các rủi ro, hỗ trợ tổ chức trong việc quản lý các hoạt động hằng ngày cũng như ra quyết định
- Các cơ quan chính phủ tìm cách phân tích dữ liệu nhằm tìm ra những cách thức thu thuế một cách khéo léo, dự đoán được tỷ lệ thất nghiệp, xu hướng nghề nghiệp trong tương lai
- Các doanh nghiệp trong lĩnh vực y tế cũng đang chủ động hơn trong việc quản lý
và theo dõi sức khỏe khách hàng, thiết kế các gói sản phẩm hợp lý nhằm giảm chi phí chăm sóc sức khỏe
- Ngành khách sạn và du lịch sử dụng dữ liệu từ nhiều nguồn như mạng xã hội và tạo ra những gói kỳ nghỉ cá nhân cho các khách hàng
- Các doanh nghiệp phân tích dữ liệu nhằm tìm hiểu hành vi khách hàng và tư vấn cho họ về danh mục sản phẩm, thời gian và địa điểm mua có những chính sách giá hấp dẫn
Hình 3 sau đây sẽ cho chúng ta hình dung rõ hơn về ứng dụng của Big Data trong một số lĩnh vực phổ biến: