1. Trang chủ
  2. » Tất cả

Phân tích dữ liệu lớn

25 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích dữ liệu lớn
Người hướng dẫn Lê Chí Ngọc
Trường học Trường Đại học Bách Khoa Hà Nội
Chuyên ngành Hệ Thống Thông Tin Quản Lý
Thể loại Tiểu luận
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 25
Dung lượng 400,35 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC TIỂU LUẬN MÔN HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài Phân tích dữ liệu lớn Giảng viên hướng dẫn LÊ CHÍ NGỌC Lớp Hệ thống thông tin quản lý – K61 MỤC[.]

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC

TIỂU LUẬN MÔN HỆ HỖ TRỢ QUYẾT ĐỊNH

Đề tài: Phân tích dữ liệu lớn

Giảng viên hướng dẫn: LÊ CHÍ NGỌC

Lớp: Hệ thống thông tin quản lý – K61

Trang 2

MỤC LỤC

LỜI NÓI ĐẦU 2

CHƯƠNG I KHÁI NIỆM DỮ LIỆU LỚN 3

1.1 Thuật ngữ “Dữ liệu lớn” 3

1.2 Khái niệm các ”V” định nghĩa Dữ liệu lớn 4

CHƯƠNG II CÁC NGUYÊN TẮC CƠ BẢN TRONG PHÂN TÍCH DỮ LIỆU LỚN 10

CHƯƠNG III CÁC CÔNG NGHỆ CHO DỮ LIỆU LỚN 13

3.1 MapReduce 13

3.2 Hadoop 16

3.3 NoSQL 20

CHƯƠNG IV DỮ LIỆU LỚN VÀ KHO DỮ LIỆU 21

4.1 Trường hợp sử dụng của Hadoop 21

4.2 Trường hợp sử dụng của kho dữ liệu 21

4.3 Vùng chung giữa Hadoop và kho dữ liệu 22

KẾT LUẬN 23

Trang 3

LỜI NÓI ĐẦU

Trong thời đại bùng nổ thông tin, phân tích dữ liệu đã trở thành ngànhcông nghệ tiên phong và được ưu tiên hàng đầu của thập kỷ Các công ty nhưIBM, Oracle, Microsoft, … đã và đang đầu tư các tổ chức tập trung vào phântích dữ liệu, cái mà sẽ giúp cải thiện năng suất trong việc vận hành công ty

Phân tích dữ liệu lớn, không phải là một khái niệm mới gần đây, tuy nhiên

đã là một ưu tiên hàng đầu của các doanh nghiệp, có tiềm năng thay đổi sâu sắcbối cảnh cạnh tranh trong nền kinh tế hội nhập toàn cầu hiện nay Ngoài ra, nócũng cung cấp các giải pháp sáng tạo để vượt qua các thách thức trong kinhdoanh Phân tích dữ liệu lớn thúc đẩy những cách mới giúp chuyển đổi quy trìnhkinh doanh, vận hành tổ chức, toàn bộ một ngành công nghiệp và thậm chí cả xãhội

Trong đề tài này, mục tiêu của em là cung cấp kiến thức một cách kháiquát và toàn diện về Dữ liệu lớn, các công nghệ và khái niệm liên quan giúp nắmbắt được khả năng và giới hạn của mô hình mới nổi này Các công nghệ đượcnhắc tới trong đề tài này sau khái niệm về Dữ liệu lớn bao gồm Hadoop,MapReduce và NoSQL Thêm và đó là phân tích, so sánh giữa Kho dữ liệu vàPhân tích dữ liệu lớn

Trang 4

CHƯƠNG I KHÁI NIỆM DỮ LIỆU LỚN

1.1 Thuật ngữ “Dữ liệu lớn”

Sử dụng dữ liệu để hiểu khách hàng và hoạt động kinh doanh nhằm duy trì cũng như thúc đẩy tăng trưởng và lợi nhuận là một nhiệm vụ ngày càng khó khăn hơn đối với các tập đoàn hiện nay Khi dữ liệu ngày một nhiều và đa dạng hơn Việc xử lý dữ liệu theo cách truyền thống trong thời gian cho chấp nhận được trở nên không thực tế Vấn đề này ngày nay còn gọi là Dữ liệu lớn, khái niệm mà đang nhận được sự quan tâm đáng kể từ cả doanh nghiệp và các chuyêngia công nghệ thông tin Hậu quả là từ “Dữ liệu lớn” trở nên phổ biến và bị lạm dụng quá mức

Ban đầu, thuật ngữ “Dữ liệu lớn” được dùng để mô tả khối lượng dữ liệu khổng lồ được phân tích với các tổ chức lớn như Google hoặc được dùng để nghiên cứu tại các dự án khoa học của NASA Nhưng với hầu hết các doanh nghiệp, từ “lớn” phụ thuộc vào quy mô của doanh nghiệp đó Dữ liệu lớn là dữ liệu mà vượt quá phạm vi thông thường của các môi trường phần cứng / hoặc quá khả năng của các công cụ phần mềm để lưu trữ, quản lý và xử lý nó trong khoảng thời gian chấp nhận được Dữ liệu lớn đã trở thành một thuật ngữ phổ biến để mô tả dữ liệu với sự tăng trưởng theo cấp số mũ, sẵn có bao gồm dữ liệu

có cấu trúc và không cấu trúc

Một câu hỏi là có Dữ liệu lớn từ đâu? Câu trả lời đơn giản là ở “khắp mọi nơi” Các nguồn dữ liệu từ xưa bị lãng quên do giới hạn về mặt phần cứng hiện tại đang được khai thác như những mỏ vàng Dữ liệu lớn được thu tập từ nhật ký

Trang 5

tài liệu văn bản trên internet, chỉ mục tìm kiếm, chi tiết ghi âm cuộc gọi, thiên văn học, dữ liệu thời tiết, sinh học, địa lý, vật lý hạt nhân, các thí nghiệm sinh hoá, hồ sơ y tế, các nghiên cứu khoa học, nhiếp ảnh, video, thông tin về các sàn thương mại điện tử và rất nhiều lĩnh vực khác Dữ liệu lớn không còn mới, điều mới ở đây là định nghĩa và cấu trúc của Dữ liệu lớn đã liên tục thay đổi Các công ty, tổ chức đã thực hiện lưu trữ và phân tích khối lượng lớn dữ liệu kể từ sự

ra đời của kho dữ liệu vào những năm 1990 Từ lúc terabyte dùng làm đơn vị chokho dữ liệu lớn đến bây giờ là petabyte và tốc độ tăng trưởng của dữ liệu đã liên tục tăng đáng kể khi các công ty, tổ chức tìm cách lưu trữ và phân tích theo mức

độ chi tiết hơn cho các giao dịch của họ cũng như dữ liệu được sản sinh từ hoạt động web và vận hành máy móc, để hiểu rõ hơn về hành vi của khách hàng và vận hành doanh nghiệp

Nhiều người (bao gồm các nhà phân tích, học thuật và lãnh đạo) cho rằng thuật ngữ “Dữ liệu lớn” đang bị hiểu sai Dữ liệu lớn không chỉ là lớn Khối lượng dữ liệu khổng lồ chỉ là một trong nhiều đặc trưng thường thấy gắn với Dữ liệu lớn, có thể kể đến các đặc trưng khác như là sự đa dạng, vận tốc gia tăng, tính xác thực, …

1.2 Khái niệm các ”V” định nghĩa Dữ liệu lớn

Dữ liệu lớn thường được định nghĩa bằng khái niệm 3V: Volume (khối lượng), Variety (tính đa dạng) và Velocity (tốc độ tăng trưởng) Ngoài ra, một vài tổ chức cung cấp và nghiên cứu Dữ liệu lớn đưa thêm một vài V nữa bao gồm: Veracity (tính chân thực) từ IBM, Variability (tính biến động) từ SAS

Trang 6

Volume (dung lượng hoặc khối lượng)

Dung lượng rõ ràng là đặc điểm thường thấy nhất của Dữ liệu lớn Có nhiều yếu tố góp phần làm tăng khối lượng dữ liệu theo cấp số nhân, như là dữ liệu giao dịch được lưu trữ hàng năm, dữ liệu văn bản được truyền phát từ các phương tiện truyền thông, sự gia tăng của các cảm biến đang được thu thập dữ liệu, dữ liệu tự động phát sinh từ RFIP và GPS, … Trong quá khứ, khối lượng dữliệu quá tải đã tạo ra những vẫn đế về lưu trữ, kỹ thuật và cả về tài chính Nhưng với ngày nay, các công nghệ lưu trữ tân tiến cùng với việc giảm đáng kể chi phí lưu trữ, các vấn đề cũ không còn đáng kể; thay vào đó, một vài vấn đề mới xuất hiện, trong đó bao gồm cách xác định mức độ phù hợp giữa khối lượng lớn dữ liệu và làm thế nào để tìm được giá trị hữu dụng và có liên quan từ những dữ liệuđó

Như đã đề cập từ trước, “lớn” là một thuật ngữ mang tính tương đối Nó thay đổi theo thời gian và được xác định khác nhau bởi các tổ chức Với sự gia tăng đáng kinh ngạc về khối lượng dữ liệu, thậm chí việc đặt tên cho đơn vị dữ liệu tiếp theo của Dữ liệu lớn cũng là một thách thức Đơn vị từng giữ vị trí cao nhất của dữ liệu được gọi là petabyte (PB) đã bị thay thế bởi zettabyte (ZB), đơn

vị tương đương với một nghìn tỷ gigabyte (GB) hoặc một tỷ terabyte (TB)

Kích thước dữ liệu ngày càng lớn hơn và lớn hơn.

Việc đong đếm cho kích thước dữ liệu đang gặp khó khăn trong việc theo kịp những đơn vị mới Chúng ta đều biết kilobyte (KB, là 1.000 byte), megabyte (MB, là 1.000.000 byte), gigabyte (GB, đó là 1.000.000.000 byte) và terabyte (TB, là 1.000.000.000.000 byte) Ngoài ra, tên được đặt cho kích thước dữ liệu là

Trang 7

tương đối mới đối với hầu hết chúng ta Bảng dưới đây trình bày những đơn vị đến sau terabyt.

Hình 1.1: Bảng đơn vị kích thước dữ liệu

Với việc mỗi exabyte dữ liệu được tạo ra trên internet mỗi ngày, tương đương với 250 triệu đĩa DVD giá trị thông tin Và ý tưởng về việc lượng dữ liệu lớn hơn zettabyte là không quá xa khi nói đến lượng dữ liệu thông qua web trongbất kỳ năm nào Trên thực tế, các chuyên gia đã ước tính chúng ta sẽ thấy lưu lượng dữ liệu vào khoảng 1,3 zettabytes trên internet vào 2016, và sẽ sớm bắt đầu nói về những đơn vị dữ liệu lớn hơn Khi đề cập đến yottabytes, vài chuyên gia Dữ liệu lớn đã nói về việc NSA và FBI đã lưu trữ bao nhiêu dữ liệu về nhân khẩu Nếu lưu trữ trên đĩa DVD, một yottabyte sẽ cần 250 nghìn tỷ đĩa

Brontobyte, một đơn vị không có trong hệ SI một cách chính thức, nhưng đã được công nhận với một số người trong cộng đồng về đo lường dữ liệu, đơn vị

Trang 8

mà có ý nghĩa là một số 1 theo sau bởi 27 số 0 Với kích thước dữ liệu như vậy

có thể được dùng để mô tả lượng dữ liệu cảm biến thu được từ internet trong tập

kỷ tới, hoặc thậm chí có thể sớm hơn Để tìm hiểu Dữ liệu lớn đến từ đâu, dưới đây là một vài ví dụ:

 Máy va chạm Hadron lớn của CERN tạo ra một petabyte mỗi giây

 Các cảm biến từ động cơ phản lực của một động cơ Boeing tạo

ra 20 terabytes mỗi giây

 500 terabytes dữ liệu mới mỗi ngày được thêm vào cơ sở dữ liệu của Facebook

 Trên YouTube, 72 tiếng video được tải lên mỗi phút, tương đương với một terabyte mỗi 4 phút

 Kính thiên văn học lớn nhất thế giới – Square Kilometre Array,

có thể tạo ra một exabyte mỗi ngày

Với góc nhìn lịch sự ngắn của thế giới internet hiện đại, thế giới trong năm

2009 đã có khoảng 0.8ZB dữ liệu; trong năm 2010 nó đã vượt mốc 1ZB; vào cuối năm 2011, con số là khoảng 1.8ZB Con số ước tính của IBM sau6,7 năm từ năm 2013 sẽ là 35ZB Mặc dù với khối lượng đáng kinh ngạc của những con số dữ liệu này, thách thức và cơ hội từ nó cũng không hề kém cạnh

Trang 9

Variety (tính đa dạng)

Dữ liệu ngày nay xuất hiện ở tất cả các loại định dạng khác nhau, từcác cơ sở dữ liệu truyền thống để lưu trữ dữ liệu phân cấp được tạo bởi người dùng cuối và hệ thống OLAP, đến tài liệu văn bản, e-mail, XML, dữliệu cảm biến, và cả dữ liệu video, âm thanh và chứng khoán Theo một sốước tính, 80 đến 85% dữ liệu của tất cả các tổ chức là dữ liệu loại định dạng không cấu trúc hoặc bán cấu trúc (một định dạng không phù hợp với các lược đồ cơ sở dữ liệu truyền thống) Nhưng không thể phủ nhận giá trịcủa nó, và do đó nó phải được đưa vào các phân tích để hỗ trợ việc ra quyết định

Velocity (vận tốc)

Theo Gartner, vận tốc trong Dữ liệu lớn có ý nghĩa là tốc độ sản sinh của dữ liệu và dữ liệu cần phải được xử lý nhanh như nào (nắm bắt, lưu trữ và phân tích) để đáp ứng được nhu cầu Vận tốc có lẽ là đặc điểm

dễ bị bỏ qua nhất của Dữ liệu lớn Phản ứng đủ nhanh để đối phó với vận tốc của dữ liệu là một thách thức đối với hầu hết các tổ chức Đối với môi trường nhạy cảm với thời gian, đồng hồ chi phí cơ hội bắt đầu chạy vào lúc dữ liệu được tạo ra Khi thời gian trôi qua, giá trị của dữ liệu giảm xuống và cuối cùng trở nên không còn hữu dụng Cho dù đối tượng dữ liệu là sức khỏe của bệnh nhân, tình trạng của hệ thống giao thông, hoặc tình trạng của danh mục đầu tư, tiếp cận và phản ứng nhanh hơn với dữ liệu ở các hoàn cảnh khác nhau sẽ luôn tạo ra kết quả thuận lợi hơn

Trong cơn bão dữ liệu lớn hiện nay, hầu hết mọi người đều cố định

Trang 10

phân tích phần còn lại, sử dụng phần mềm và hệ thống phần cứng được tối

ưu hóa để khai thác số lượng lớn nguồn dữ liệu đa dạng Mặc dù điều này rất quan trọng và có giá trị cao, nhưng có một lớp phân tích khác được điều khiển từ bản chất vận tốc của Dữ liệu lớn, được gọi là luồng dữ liệuphân tích, mà hầu hết bị bỏ qua Nếu được thực hiện đúng, dữ liệu phân tích luồng có thể có giá trị và trong một số môi trường kinh doanh có giá trị hơn, hơn các phân tích còn lại

Veracity (tính xác thực)

Tính xác thực đang là một thuật ngữ được sử dụng như là “V” thứ 4dùng để mô tả Dữ liệu lớn bởi IBM Nó đề cập đến sự phù hợp với sự thật:tính chính xác, chất lượng, tính trung thực hoặc độ tin cậy của dữ liệu Cáccông cụ và kỹ thuật thường được sử dụng để xử lý tính chính xác của Dữ liệu lớn bằng cách chuyển đổi dữ liệu thành những hiểu biết đáng tin cậy

và có ý nghĩa

Variability (tính không nhất quán)

Ngoài vận tốc và tính đa dạng của dữ liệu ngày càng tăng, luồng dữ liệu có thể không nhất quán một cách rõ rệt Liệu điều gì đang có xu hướng mạnh trong các phương tiện truyền thông xã hội? Dữ liệu theo ngày, theo mùa và dữ liệu kích hoạt theo sự kiện là thách thức để quản lý, đặc biệt là đối với các phương tiện truyền thông xã hội có liên quan

Trang 11

CHƯƠNG II CÁC NGUYÊN TẮC CƠ BẢN TRONG PHÂN TÍCH DỮ LIỆU LỚN

Với bất kỳ một đầu tư cho công nghệ thông tin nào, sự thành công trong việc phân tích Dữ liệu lớn phụ thuộc vào một vài yếu tố then chốt

Hình 1.2: Các nhân tố then chốt cho việc phân tích Dữ liệu lớn

1 Nhu cầu kinh doanh rõ ràng (phù hợp với tầm nhìn và chiến lược của doanh nghiệp, tổ chức)

Đầu tư kinh doanh nên được thực hiện vì lợi ích của doanh nghiệp, không phải vì sự tiến bộ của công nghệ Do đó, mục tiêu chính của

Trang 12

phân tích Dữ liệu lớn phải là giải quyết nhu cầu của doanh nghiệp ở mọi cấp độ chiến lược, chiến thuật và vận hành.

2 Lời cam kết tài trợ vững chắc

Có một thực tế nổi tiếng là nếu bạn không có một nhà tài trợ vững chắc, sẽ rất khó (có thể nói không thể) để thành công Nếu phạm vi của

dự án là một hoặc một vài ứng dụng phân tích, cấp độ tài trợ có thể ở cấp phòng ban Tuy nhiên nếu mục tiêu là sự chuyển đổi toàn diện ở tập tổ chức, thường là các sáng kiến thường gặp khi làm với Dữ liệu lớn, mức tài trợ cần phải ở cấp cao nhất và với toàn bộ tổ chức

3 Sự cân đối giữa chiến lược kinh doanh và công nghệ thông tin

Đây là điều cần thiết để đảm bảo rằng công việc phân tích Dữ liệu lớn luôn được hỗ trợ trực tiếp bởi chiến lược kinh doanh chứ không phải các cách đi vòng khác Việc phân tích sẽ đóng vai trò then chốt trong

sự thành công của chiến lược kinh doanh

4 Văn hoá doanh nghiệp: ra quyết định dựa trên thực tế

Trong văn hoá ra quyết định dựa trên thực tế, con số quan trọng hơn trực giác Ngoài ra sẽ có văn hoá ra quyết định mang tính thử nghiệm

để xem những gì có tác dụng và những gì không Để tạo nên văn hoá tổchức ra quyết định dựa trên thực tế, nhà quản lý cấp cao cần phải:

 Nhận ra những nhân sự không thể làm việc hoặc thích ứng với thay đổi của công nghệ

 Trở thành người hỗ trợ những phát biểu

Trang 13

 Cần thảo luận để xem những phân tích nào cần thiết cho việc quyết định.

 Kết hợp phần thưởng với những kết quả khả quan

5 Một cơ sở hạ tầng dữ liệu mạnh mẽ

Các kho dữ liệu cung cấp cơ sở hạ tầng dữ liệu cho việc phân tích Cơ

sở hạ tầng này đang thay đổi và được cải tiến ở kỷ nguyên của Dữ liệu lớn với các công nghệ mới hơn Sự thành công đòi hỏi sự kết nối giữa cái cũ và cái mới cho một cơ sở hạ tầng hoạt động một cách toàn diện.Với mục tiêu bắt kịp nhu cầu tính toán cho phân tích Dữ liệu lớn, một vài kĩ thuật và nền tảng tính toán đã được phát triển Những kĩ thuật này thường được gọi là tính toán hiệu năng cao, bao gồm các kĩ thuật sau:

 Phân tích bộ nhớ trong: Giải quyết các vấn đề phức tạp trong gần thời gian thực với độ chính xác cao chính xác bằng cách cho phép tính toán phân tích Dữ liệu lớn được xử lý trong bộ nhớ và phân phối trên tập hợp các nút chuyên dụng

 Phân tích trong cơ sở dữ liệu

Trang 14

CHƯƠNG III CÁC CÔNG NGHỆ CHO DỮ LIỆU LỚN

3.1 MapReduce

Giới thiệu

Mapreduce là một mô hình lập trình được nghiên cứu bởi Google, với mụcđích thực hiện quá trình xử lý tập dữ liệu lớn trên các cụm lớn các máy con Kết quả tốt sẽ được thu lại từ việc chia nhỏ quy trình xử lý thành các việc nhỏ hơn và

có thể chạy trên hàng trăm, thậm chí hàng nghìn node (nốt) mỗi cụm qua các vòng lặp Mapreduce gồm 2 pha: map và reduce

Hàm Map: Các xử lý một cặp (key, value) để sinh ra một cặp (keyI,

valueI) - key và value trung gian Dữ liệu này input vào hàm Reduce

Hàm Reduce: Tiếp nhận các (keyI, valueI) và trộn các cặp (keyI, valueI) trung gian, lấy ra các valueI có cùng keyI

Việc của lập trình viên là quan tâm tới 2 hàm Map và Reduce Còn các vấn đề khác như: phân chia các dữ liệu đầu vào, lịch trình thực thi các máy con,

xử lý các lỗi ở máy con, quản lý việc giao tiếp giữa các máy con là việc của hệ thống

Lập trình viên có thể không có kinh nghiệm về hệ thống song song và phân tán vẫn dễ dàng vận hành một hệ thống phân tán lớn Áp dụng mô hình MapReduce chạy trên lượng lớn các hệ thống cỡ hàng ngàn máy con và dữ liệu

có thể lên đến mức Terabytes

Một vài phân tích, quy trình xử lý có thể xử dụng mô hình MapReduce dễ dàng và hiệu quả:

Ngày đăng: 26/02/2023, 18:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w