1. Trang chủ
  2. » Tất cả

Chương iii quản lý dữ liệu, phân tích dữ liệu lớn và quản lý hồ sơ

46 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Chương III Quản Lý Dữ Liệu, Phân Tích Dữ Liệu Lớn Và Quản Lý Hồ Sơ
Người hướng dẫn Lấ Chí Ngọc
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Quản lý Dữ liệu và Hệ Thống Thông Tin
Thể loại Báo cáo cuối kì
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 46
Dung lượng 100,75 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN TIN BÁO CÁO CUỐI KÌ HỆ HỖ TRỢ QUYẾT ĐỊNH Giảng viên hướng dẫn LÊ CHÍ NGỌC MỤC LỤC INFORMATION TECNOLOGY FOR MANAGEMENT 3 CHƯƠNG III Quản lý dữ liệu, Phân tích[.]

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN TOÁN TIN

Trang 2

M C L C ỤC LỤC ỤC LỤC

INFORMATION TECNOLOGY FOR MANAGEMENT···3

CHƯƠNG III: Quản lý dữ liệu, Phân tích dữ liệu lớn và Quản lý hồ sơ···3

3.1 Hệ thống quản lý cơ sở dữ liệu:···4

3.2 Kho dữ liệu và phân tích dữ liệu lớn···21

3.3 Khai thác dữ liệu và văn bản···36

3.4 Kinh doanh thông minh···38

3.5 Quản lý hồ sơ điện tử:···44

Trang 3

INFORMATION TECNOLOGY FOR MANAGEMENT

CH ƯƠNG III: Quản lý dữ liệu, NG III: Qu n lý d li u, ản lý dữ liệu, ữ liệu, ệu, Phân tích d li u l n và Qu n ữ liệu, ệu, ớn và Quản ản lý dữ liệu,

lý h s ồ sơ ơ

Trang 4

3.1 H th ng qu n lý c s d li u: ệu, ống quản lý cơ sở dữ liệu: ản lý dữ liệu, ơ ở dữ liệu: ữ liệu, ệu,

Coca-Cola Quản lý tại điểm tạo nên sự khác biệt, Công ty Coca-Cola là một công ty với doanh thu hơn 48 tỷ đô ladoanh thu và 9 tỷ đô la lợi nhuận (Hình 3.2) Người dẫn đầu thị trường quản lý vàphân tích một vài petabyte (Pb) dữ liệu được tạo hoặc thu thập từ hơn

500 thương hiệu và người tiêu dùng ở 206 quốc gia Các đối tác đóng chai của nó cung cấp bán hàng vàdữ liệu vận chuyển, trong khi khách hàng bán lẻ truyền dữ liệu giao dịch và bán hàng Các nguồn dữ liệu khác được liệt kê trong Bảng 3.1 Từ 2003 đến xuân 2013, các nhà phân tích dữ liệutại Coca-Cola biết rằng có những cơ hội BI trong hàng núi dữ liệu của những người đóng chaiđang lưu trữ, nhưng việc tìm và truy cập tất cả dữ liệu đó để phân tích đã được chứng minh làgần như là không thể Các nguồn dữ liệu khác nhau gây ra sự chậm trễ lâu trong việc nhận phân tíchbáo cáo từ IT cho các nhóm bán hàng Công ty quyết địnhthay thế phần mềm cũtại mỗi cơ sở đóng chai và tiêu chuẩn hóa chúng trên hệ thống BI mới, sự kết hợp củaCác sản phẩm MicroStrargety và Microsoft BI.Quản

lý dữ liệu doanh nghiệp Giống như hầu hết các công ty toàn cầu, Coca-Cola dựa vào về quản lý dữ liệu doanh nghiệp tinh vi, BI và các công nghệ phân tích để phát triển duy trì hiệu suất của nó trong các thị trường cạnh tranh khốc liệt (Hình 3.3)

Dữ liệu được quản lý trong một cơ sở dữ liệu tập trung, như được minh họa trong Hình 3.4 Kho dữ liệu, dữ liệu lớn,phân tích, mô hình dữ liệu và phương tiện

truyền thông xã hội được sử dụng để đáp ứng với hoạt động của đối thủ cạnh tranh-ity, thay đổi thị trường, và sở thích của người tiêu dùng.Để hỗ trợ chiến lược kinh doanh và hoạt động của mình, Coca-Cola đã thay đổi từ mộtcách tiếp cận cơ

Trang 5

sở dữ liệu phi tập trung đến một cách tiếp cận cơ sở dữ liệu tập trung Bây giờ dữ liệu của nóđược kết hợp tập trung và có thể truy cập thông qua các nền tảng được chia sẻ trong toàn tổ chức (Hình 3.5) Mục tiêu chính của chiến lược quản lý dữ liệu là giúp bán lẻ của nó những khách hàng như Walmart, nơi bán 4 tỷ đô la sản phẩm Coca-Cola hàng năm.

KINH DOANH BỀN VỮNG HIỆU SUẤT

Tất cả dữ liệu được chuẩn hóa thông qua một loạt quản lý dữ liệu chủ

(MDM) các quy trình, như đã thảo luận trong

Chương 2 Một kho dữ liệu doanh nghiệp (EDW) có một cái nhìn duy nhất

về tất cả các dữ liệu bán lẻ đa kênh EDW tạo ra một cái nhìn đáng tin cậy của khách hàng, bán hàng và giao dịch, cho phép Coca-Cola phản hồi nhanh chóng và chính xác để thay đổi trong điều kiện thị trường

Trên khắp các bộ phận và phòng ban của Coca-Cola, khối lượng dữ liệu khổng lồđược phân tích để đưa ra các quyết định quan trọng hơn, nhạy cảm hơn về thời gian sản phẩm, tiếp thị người mua sắm, chuỗi cung ứng và sản xuất Điểm bán hàng

Dữ liệu (POS) được thu thập từ các kênh bán lẻ và được sử dụng để tạo ra sản phẩm của khách hàngcác tập tin Những hồ sơ này được truyền thông qua hệ thống báo cáo iPad tập trung

Dữ liệu POS được phân tích để hỗ trợ lập kế hoạch hợp tác, dự báo và

quá trình bổ sung trong chuỗi cung ứng của nó (Quản lý chuỗi cung ứng,

lập kế hoạch hợp tác, dự báo và bổ sung được bao phủ nhiều hơn

chi tiết trong Chương 10.)

Phương pháp tiếp cận dữ liệu lớn và mô hình quyết định của Coca-Cola

Dữ liệu lớn là được coi là một tài sản chiến lược Giám đốc chuyên sâu về dữ liệu lớn Esat Sezer đã tuyên bố rằng Coca-Cola có cách tiếp cận chiến lược thay vì cáchtiếp cận chiến thuật lớn dữ liệu Công ty đã tiến bộ rất nhiều trong việc sử dụng dữ

Trang 6

liệu lớn để quản lý sản phẩm của mình, doanh thu bán hàng, và trải nghiệm của khách hàng trong thời gian gần và để giảm chi phí Dành cho ví dụ, nó cắt giảm chiphí làm thêm gần một nửa bằng cách phân tích dữ liệu trung tâm dịch vụ.

Dữ liệu lớn giúp Coca-Cola liên quan đến 70 triệu người theo dõi trên

Facebook của họ Nhiều người trong số họ củng cố thương hiệu Coke

Dữ liệu lớn đóng vai trò quan trọng trong việc đảm bảo rằng nước cam của nó có

vị cùng năm-tròn và có sẵn ở bất cứ đâu trên thế giới Cam được Coca-Cola sử dụng có một mùa tăng trưởng cao điểm chỉ ba tháng Sản xuất nước cam với mộthương vị nhất quán quanh năm mặc dù chất lượng cung cấp không nhất quán làphức tạp Để đối phó với sự phức tạp, một mô hình quyết định nước cam đã được

phát triển- oped, mô hình Sách Đen Một mô hình quyết định định lượng mối

quan hệ giữa các biến, làm giảm sự không chắc chắn Sách đen kết hợp dữ liệu chi tiết trên 600 hương vị tạo nên một màu cam, thời tiết, sở thích của khách hàng, dự kiến năng suất cây trồng, áp lực chi phí, sở thích của người tiêu dùng trong khu vực, và độ chua hoặc ngọt tỷ lệ ness Mô hình chỉ định cách pha chế nước cam để tạo sự đồng nhất nếm thử Mô hình nước ép Sách Đen của Coke được coi là một trong những phức tạp nhất ứng dụng phân tích kinh doanh Nó đòi hỏi phải phân tích quyết định lên tới 1 triệu (10E18) các biến để liên tục cung cấp sự pha trộn tối ưu

Với sức mạnh của dữ liệu lớn và mô hình quyết định, Coca-Cola đã sẵn sàng cho

sự gián đoạn trong nguồn cung trước xa Theo Doug Bippert, phó của Coca-ColaChủ tịch của tăng tốc kinh doanh, nếu chúng ta có một cơn bão hoặc đóng băng, chúng ta có thể

nhanh chóng lên kế hoạch lại cho doanh nghiệp trong năm hoặc 10 phút chỉ vì chúng tôi đã toán học

mô hình hóa nó ngay lập tức (BusinessIntellect.com, 2013b

Trang 7

Câu hỏi:

1 Tại sao Công ty Coca-Cola có petabyte dữ liệu?

2 Tại sao điều quan trọng đối với Coca-Cola là có thể xử lý dữ liệu POS trong

gần thời gian thực?

3 Coca-Cola cố gắng tạo ra khách hàng thuận lợi như thế nào

Kinh nghiệm?

4 Tầm quan trọng của việc có một cái nhìn đáng tin cậy về dữ liệu là gì?

5 Lợi ích của mô hình quyết định là gì?

6 Mô hình Sách Đen là gì?

7 Giải thích lợi ích chiến lược của mô hình Sách Đen

3.1 Hệ thống quản lý cơ sở dữ liệu:

Dữ liệu là động lực đằng sau bất kỳ doanh nghiệp thành công Hoạt động, kế hoạch, kiểm soát và tất cả các chức năng quản lý khác chủ yếu dựa vào xử lý thôngtin, không phải dữ liệu thô Và, không ai muốn chờ đợi cho kinh doanh quan trọngbáo cáo hoặc câu trả lời cụ thể cho câu hỏi của họ Công nghệ quản lý dữ liệugiúp người dùng được thông báo và hỗ trợ các nhu cầu kinh doanh khác nhau làtiếp theo

Cơ sở dữ liệu lưu trữ dữ liệu được tạo bởi các ứng dụng kinh doanh, cảm biến,

hoạt động và hệ thống xử lý giao dịch (TPS) Dữ liệu trong cơ sở dữ liệu là vô cùng Các doanh nghiệp vừa và lớn thường có nhiều cơ sở dữ liệu khác nhau

các loại

Kho dữ liệu tích hợp dữ liệu từ nhiều cơ sở dữ liệu và silo dữ liệu và tổ chức

chúng để phân tích phức tạp, khám phá kiến thức và hỗ trợ quyết định Ví dụ: dữ liệu được trích xuất từ cơ sở dữ liệu, được xử lý để chuẩn hóa định dạng của chúng

và sau đó được tải vào kho dữ liệu cụ thể thời gian, chẳng hạn như hàng tuần Như vậy, dữ liệu trong kho dữ liệu là không dễ biến đổi sẵn sàng để phân tích

Kỹ thuật xử lý dữ liệu, sức mạnh xử lý và hiệu suất doanh nghiệp

Trang 8

khả năng quản lý đã trải qua những tiến bộ mang tính cách mạng trong những năm gần đây

vì những lý do mà bạn đã quen thuộc với dữ liệu lớn, tính di động và điện toán đám mây Tuy nhiên, thập kỷ vừa qua đã chứng kiến sự xuất hiện của các phương pháp mới, đầu tiên là lưu trữ dữ liệu và gần đây hơn là để xử lý giao dịch, như bạn

đã đọc trong phần này

Hệ thống quản lý cơ sở dữ liệu (DBMS) tích hợp với hệ thống thu thập dữ liệu

chẳng hạn như TPS và các ứng dụng kinh doanh; lưu trữ dữ liệu một cách có tổ chức; và cung cấp phương tiện để truy cập và quản lý dữ liệu đó Trong 25 năm

qua, cơ sở dữ liệu quan hệ đã là mô hình cơ sở dữ liệu tiêu chuẩn được hầu hết

nhập vào prise Cơ sở dữ liệu quan hệ lưu trữ dữ liệu trong các bảng bao gồm các cột và hàng, tương tự như định dạng của bảng tính, như trong Hình 3.6

Các hệ thống quản lý quan hệ (RDBMS) cung cấp quyền truy cập vào dữ liệu

bằng cách sử dụng một ngôn ngữ khai báo Ngôn ngữ truy vấn có cấu trúc

(SQL) Ngôn ngữ khai báo đơn giản hóa việc truy cập dữ liệu bằng cách yêu cầu

người dùng chỉ xác định dữ liệu nào họ muốn truy cập mà không xác định cách truy cập sẽ đạt được

Chức năng DBMS

Một cái nhìn chính xác và nhất quán về dữ liệu trong toàn doanh nghiệp là cần thiết vì vậyngười ta có thể đưa ra quyết định sáng suốt, có thể hành động hỗ trợ cho chiến lược kinh doanh

Các chức năng được thực hiện bởi DBMS để giúp tạo ra một khung nhìn như vậy là:

• Lọc và định hình dữ liệu: Xử lý và lưu trữ dữ liệu hiệu quả Quan sát

dữ liệu cho các lỗi, sự không nhất quán, dư thừa và không đầy đủ

thông tin

Trang 9

• Toàn vẹn và bảo trì dữ liệu: Chính xác, chuẩn hóa và xác minh các điều khoản

độ chính xác và tính toàn vẹn của dữ liệu

• Đồng bộ hóa dữ liệu: Tích hợp, khớp hoặc liên kết dữ liệu từ các nguồn khác

nhau

• Bảo mật dữ liệu: Kiểm tra và kiểm soát tính toàn vẹn dữ liệu theo thời gian.

• Truy cập dữ liệu: Cung cấp quyền truy cập được ủy quyền vào dữ liệu theo cả

kế hoạch và đặc biệt cách trong thời gian chấp nhận được

Phần cứng máy tính ngày nay có khả năng vượt qua các bộ dữ liệu khổng lồđiều đó là không thể để quản lý một vài năm trước và làm cho chúng có sẵn trên mạng không dây

Độ trễ dữ liệu Độ trễ là thời gian trôi qua (hoặc độ trễ) giữa khi dữ liệu được tạo

và khi chúng có sẵn cho một truy vấn hoặc báo cáo Các ứng dụng có dung sai

khác nhau Ances cho độ trễ Hệ thống cơ sở dữ liệu có xu hướng có độ trễ ngắn hơn kho dữ liệu- nhà cửa Độ trễ ngắn áp đặt nhiều hạn chế hơn trên một hệ thống

Khả năng xử lý sự biến động của dữ liệu Cơ sở dữ liệu có sức mạnh xử lý

để xử lý sự biến động của dữ liệu Tốc độ mà dữ liệu được thêm, cập nhật hoặc

đã xóa xác định khối lượng công việc mà cơ sở dữ liệu phải có khả năng kiểm soát

để ngăn chặn vấn đề với tỷ lệ phản hồi cho các truy vấn

Thời gian trả lời truy vấn Khối lượng dữ liệu tác động đến thời gian phản hồi

cho các truy vấn và khám phá dữ liệu Nhiều cơ sở dữ liệu dữ liệu tiền giai đoạn

trước đó là, tóm tắt hoặc tiền mã hóa kết quả muộn vì vậy các truy vấn có tốc độ

phản hồi nhanh hơn

Thống nhất dữ liệu Tính nhất quán ngay lập tức có nghĩa là ngay khi dữ liệu

được cập nhật, phản hồi cho bất kỳ truy vấn mới sẽ trả về giá trị cập nhật Với

tính nhất quán cuối cùng, không phải tất cả các câu trả lời truy vấn sẽ thay đổi dữ

liệu thay đổi thống nhất Kết quả truy vấn không nhất quán có thể gây ra vấn đề nghiêm trọng cho các phân tích phụ thuộc vào dữ liệu chính xác

Trang 10

Dự đoán truy vấn Số lượng truy vấn ad hoc hoặc không thể đoán trước càng

nhiều, cơ sở dữ liệu cần thiết hơn Quản lý hiệu suất cơ sở dữ liệu hoặc truy khó khăn hơn khi khối lượng công việc không thể đoán trước đến mức không thểchuẩn bị trước Khả năng xử lý khối lượng công việc là quan trọng nhất

vấn-tiêu chí khi lựa chọn cơ sở dữ liệu

Xử lý giao dịch trực tuyến và trực tuyến

Xử lý phân tích

Ví dụ, khi hầu hết các giao dịch kinh doanh xảy ra, một mặt hàng được bán hoặc trả lại, một đơn đặt hàng được gửi hoặc hủy, một khoản thanh toán hoặc tiền gửi được thực hiện thay đổi của Haiti ngay lập tức đến cơ sở dữ liệu Những thay đổi trực tuyến này là bổ sung, cập nhật hoặc xóa DBMS ghi lại và xử lý các giao dịch trong cơ sở dữ liệu và hỗ trợ truy vấn và báo cáo Với các chức năng của chúng,

DBMS được gọi là trực tuyến

hệ thống xử lý giao dịch (OLTP) OLTP là một thiết kế cơ sở dữ liệu phá vỡ

đưa thông tin phức tạp vào các bảng dữ liệu đơn giản hơn để cân bằng giữa

hiệu quả xử lý giao dịch và hiệu quả truy vấn Quá trình cơ sở dữ liệu OLTP

hàng triệu giao dịch mỗi giây Tuy nhiên, cơ sở dữ liệu không thể được tối ưu hóa

cho khai thác dữ liệu, hệ thống xử lý phân tích trực tuyến phức tạp (OLAP) và

quyết địnhủng hộ Những hạn chế này dẫn đến sự ra đời của công nghệ kho dữ liệu

Kho dữ liệu và dữ liệu được tối ưu hóa cho OLAP, khai thác dữ liệu, BI và hỗ trợ quyết định OLAP là một thuật ngữ được sử dụng để mô tả phân tích dữ liệu phức tạp từ kho dữ liệu

Tóm lại, cơ sở dữ liệu được tối ưu hóa cực kỳ nhanh xử lý giao dịch và xử lýtruy vấn Kho dữ liệu được tối ưu hóa cho phân tích

Một trong những động lực chính của sự thay đổi trong thị trường quản lý dữ liệu là tăng lượng dữ liệu cần quản lý Doanh nghiệp cần DBMS mạnh mẽ và

Trang 11

giải pháp lưu trữ dữ liệu, phân tích và báo cáo Bốn nhà cung cấp mà

domi-Nate thị trường này, Oracle, IBM, Microsoft và Teradata, tiếp tục phản hồi

để phát triển nhu cầu quản lý dữ liệu với phần mềm thông minh và tiên tiến hơn

và phần cứng Công nghệ phần cứng tiên tiến cho phép nhân rộng lên cao hơn nhiều khối lượng dữ liệu và khối lượng công việc hơn trước đây có thể, hoặc nó có thể xử lý cụ thể khối lượng công việc Các cơ sở dữ liệu quan hệ mục đích chung

cũ hơn DBMS thiếu quy mô khả năng hoặc tính linh hoạt cho khối lượng công việcchuyên ngành hoặc rất lớn, nhưng rất giỏi họ làm gì

Xếp hạng nhà cung cấp DBMS

Các DBMS doanh nghiệp xếp hạng cao nhất vào giữa năm 2014 là MySQL của Oracle, Máy chủ SQL của Microsoft, PostgreSQL, Cơ sở dữ liệu DB2 và Cơ sở dữliệu của IBM Phần lớn chạy trên nhiều hệ điều hành (HĐH)

• MySQL, được Oracle mua lại vào tháng 1 năm 2010, cung cấp cho hàng trămhàng ngàn trang web thương mại và một số lượng lớn doanh nghiệp nội bộ

các ứng dụng

• SQL Server dễ sử dụng, sẵn có và hệ điều hành Windows

Gration làm cho nó trở thành một lựa chọn dễ dàng cho các công ty chọn sản phẩmcủa Microsoft cho doanh nghiệp của họ

• PostgreSQL là cơ sở dữ liệu nguồn mở tiên tiến nhất, thường được sử dụng bởicác ứng dụng chơi trò chơi trực tuyến và Skype, Yahoo!, và MySpace

• DB2 được sử dụng rộng rãi trong các trung tâm dữ liệu và chạy trên Linux,

UNIX, Windows và máy tính lớn

Xu hướng hướng tới các hệ thống NoQuery

RDBMS vẫn là các công cụ cơ sở dữ liệu thống trị, nhưng xu hướng về NoQuery

(viết tắt của hệ thống không chỉ SQL SQL) là rõ ràng Các hệ thống NoQuery tăng lên chiếm 50% từ năm 2013 đến 2014 Mặc dù NoQuery đã tồn tại như

Trang 12

miễn là DBMS quan hệ, bản thân thuật ngữ này không được giới thiệu cho đến năm 2009 Điều đó là khi nhiều hệ thống mới được phát triển để đối phó với sự mở

ra Yêu cầu của DBMS, cụ thể là xử lý dữ liệu lớn, khả năng mở rộng và lỗi

dung sai cho các ứng dụng Web lớn Khả năng mở rộng có nghĩa là hệ thống có

thể tăng về kích thước để xử lý sự tăng trưởng dữ liệu hoặc tải của số lượng đồng thời ngày càng tăng người dùng Nói cách khác, các hệ thống có thể mở rộng đáp

ứng hiệu quả các yêu cầu cao hiệu suất tính toán Lỗi dung sai có nghĩa là không

có lỗi nào dẫn đến bất kỳ mất dịch vụ

Các hệ thống NoQuery là một nhóm các hệ thống cơ sở dữ liệu không đồng nhất như vậy cố gắng phân loại chúng không hữu ích lắm Tuy nhiên, lợi thế chungcủa họ là những

• Hiệu suất cao hơn

• Dễ dàng phân phối dữ liệu trên các nút khác nhau, cho phép khả năng mở rộng vàkhả năng chịu lỗi

• Linh hoạt hơn

• Quản trị đơn giản

Bắt đầu từ năm 2010 và tiếp tục đến năm 2014, Microsoft đã làm việc trên

bản viết lại đầu tiên của việc thực thi truy vấn của SQL Server kể từ Phiên bản 7 được phát hành trong 1998 Mục tiêu là cung cấp tốc độ giống như NoQuery mà không làm mất khả năng của một cơ sở dữ liệu quan hệ

Với hầu hết các dịch vụ của NoQuery, phần lớn chi phí không nằm ở việc mua lại cơ sở dữ liệu, nhưng thay vì thực hiện nó Dữ liệu cần được chọn và di chuyển (đã chuyển) sang cơ sở dữ liệu mới Microsoft hy vọng sẽ giảm các chi phí này bằng cách cung cấp giải pháp di cư

Trang 13

Cơ sở dữ liệu được tập trung hoặc phân tán, như trong Hình 3.9 Cả hai loại

dữ liệu- căn cứ cần một hoặc nhiều bản sao lưu và nên được lưu trữ tại chỗ và ngoài cơ sở trong trường hợp của một vụ tai nạn hoặc sự cố an ninh

Kiến trúc cơ sở dữ liệu tập trung

Cơ sở dữ liệu tập trung lưu trữ tất cả các tệp có liên quan ở một vị trí trung tâm, khi bạn đọc trường hợp mở Coca-Cola Trong nhiều thập kỷ, nền tảng cơ sở dữ liệu chính bao gồm tập tin cơ sở dữ liệu tập trung trên máy tính lớn máy tính lớn Lợi ích của tập trung cấu hình cơ sở dữ liệu bao gồm:

1 Kiểm soát tốt hơn chất lượng dữ liệu Thống nhất dữ liệu dễ dàng hơn khi dữ

liệu được lưu giữ ở một vị trí thực tế vì có thể bổ sung, cập nhật và xóa dữ liệuđược thực hiện một cách có giám sát và có trật tự

2 Bảo mật CNTT tốt hơn Dữ liệu được truy cập thông qua máy tính chủ tập

trung, trong đó chúng có thể được bảo vệ dễ dàng hơn khỏi sự truy cập hoặc sửa đổi trái phép Một nhược điểm lớn của cơ sở dữ liệu tập trung, giống như tất cả các

hệ thống tập trung, là độ trễ truyền khi người dùng được geodispersed Phần cứng mạnh hơn và mạng bù đắp cho nhược điểm này

Kiến trúc cơ sở dữ liệu phân tán

Một hệ thống cơ sở dữ liệu phân tán cho phép các ứng dụng trên máy tính và

điện thoại di động truy cập dữ liệu từ cả cơ sở dữ liệu cục bộ và từ xa, như được sơ

đồ hóa trong Hình 3.10 Phân phối cơ sở dữ liệu sử dụng kiến trúc máy khách / máy chủ để xử lý các yêu cầu thông tin Máy vi tính và thiết bị di động truy cập vào máy chủ được gọi là máy khách Các cơ sở dữ liệu được lưu trữ trên các máy chủ cư trú trong trung tâm dữ liệu của công ty, đám mây riêng hoặc đám mây côngcộng

Thu thập dữ liệu là một quá trình rất phức tạp có thể tạo ra các vấn đề liên quanchất lượng của dữ liệu được thu thập Do đó, bất kể dữ liệu như thế nào

thu thập, họ cần được xác nhận để người dùng biết họ có thể tin tưởng họ Cổ điển

Trang 14

các biểu thức tổng hợp tình huống là rác rưởi, rác rưởi ra ngoài (GIGO) và

rác rưởi có khả năng rủi ro hơn, tin mừng Trong trường hợp sau, chất lượng kém

dữ liệu được tin cậy và sử dụng làm cơ sở để lập kế hoạch Bạn đã gặp dữ liệucác biện pháp bảo vệ, chẳng hạn như kiểm tra tính toàn vẹn, để giúp cải thiện chất lượng dữ liệu khi bạn điền vào một hình thức trực tuyến Ví dụ: biểu mẫu sẽ khôngchấp nhận một địa chỉ email không phải là định dạng chính xác

Chi phí và hậu quả dữ liệu bẩn

Dữ liệu bẩn, đó là dữ liệu kém chất lượng, thiếu tính toàn vẹn và không thể tin cậy được Quá thường xuyên người quản lý và nhân viên thông tin thực sự bị hạn chế bởi dữ liệu điều đó không thể tin được bởi vì chúng không đầy đủ, ngoài ngữ cảnh,lỗi thời, không chính xác, không thể truy cập hoặc quá nhiều đến nỗi họ cần nhiều tuần để phân tích Trong những tình huống như vậy, người ra quyết định đang đối mặt với quá nhiều sự không chắc chắn để thực hiện quyết định kinh doanh thông minh Chi phí của dữ liệu kém chất lượng có thể được thể hiện

như một công thức:

Ví dụ về các chi phí này bao gồm:

• Mất kinh doanh Kinh doanh bị mất khi cơ hội bán hàng bị bỏ lỡ, đơn đặt hàng

được trả lại vì các mục sai đã được gửi hoặc lỗi gây thất vọng và

đuổi khách hàng đi

• Thời gian ngăn ngừa lỗi Nếu dữ liệu không thể tin cậy, thì nhân viên

cần dành nhiều thời gian và công sức hơn để cố gắng xác minh thông tin để

Tránh những sai lầm

• Thời gian sửa lỗi Nhân viên cơ sở dữ liệu cần xử lý sửa chữa

đến cơ sở dữ liệu Ví dụ: chi phí sửa lỗi tại Urent

Tổng công ty được ước tính như sau:

a) Hai nhân viên cơ sở dữ liệu dành 25 phần trăm của quy trình ngày làm việc của

họ và xác minh chỉnh sửa dữ liệu mỗi ngày:

Trang 15

2 người * 25% lỗi 8 giờ / ngày 4 giờ / ngày sửa lỗi

b) Mức lương hàng giờ là $ 50 mỗi giờ dựa trên mức lương và lợi ích:

$ 50 / giờ * 4 giờ / ngày $ 200 / ngày sửa lỗi

c) 250 ngày làm việc mỗi năm:

$ 200 / ngày * 250 ngày $ 50.000 / năm để sửa lỗi

Chi phí dữ liệu kém chất lượng lan rộng khắp một công ty, ảnh hưởng đến

hệ thống từ vận chuyển và tiếp nhận đến kế toán và dịch vụ khách hàng Dữ liệulỗi thường phát sinh từ các chức năng hoặc bộ phận tạo hoặc tạo dữ liệu trên mạng

và không thuộc bộ phận CNTT Khi tất cả các chi phí được xem xét, giá trị của việc tìm kiếm và sửa chữa các nguyên nhân gây ra lỗi dữ liệu trở nên rõ

ràng Trong một thời gian ngân sách giảm, một số tổ chức có thể không có tài nguyên cho các dự án đó ect và thậm chí có thể không nhận thức được vấn

đề Những người khác có thể đang chi tiêu phần lớn thời gian của họ khắc phục vấn đề, do đó khiến họ không có thời gian để ngăn chặn họ Dữ liệu xấu đang khiếncác doanh nghiệp Mỹ tốn hàng trăm tỷ đô la mỗi năm và ảnh hưởng đến khả năng của họ để thoát khỏi khí hậu kinh tế khó khăn Sai và các giá trị lỗi thời, dữ liệu bị thiếu và các định dạng dữ liệu không nhất quán có thể gây mất khách hàng, bán hàng và doanh thu; phân bổ nguồn lực sai; và giá cả thiếu sót chiến lược

Đối với một công ty cụ thể, rất khó để tính toàn bộ chi phí của dữ liệu kém chất lượng và tác dụng lâu dài của nó Một phần của khó khăn là thời gian trễ giữa sai lầm và khi nó được phát hiện Lỗi có thể rất khó sửa, đặc biệt là khi hệ thống mở rộng trên toàn doanh nghiệp Một mối quan tâm khác là tác động của lỗi có thể không thể đoán trước hoặc nghiêm trọng Ví dụ: chi phí lỗi do không hợp lệ

Chỉ riêng dữ liệu chịu trách nhiệm và không chính xác được ước tính lên tới 40 tỷ

đô la hàng năm trong lĩnh vực bán lẻ (Zynapse, 2010) Và, một công ty chăm sóc sức khỏe có đại lý làm việc với nhiều IS, nhưng không cập nhật chi tiết khách hàngtrong mỗi IS, đã thấy chi phí hàng năm tăng thêm 9 triệu đô la

Trang 16

Quyền sở hữu dữ liệu và chính trị tổ chức

Mặc dù cần dữ liệu chất lượng cao, chính trị tổ chức và các vấn đề kỹ thuật

làm cho khó khăn để đạt được Nguồn gốc của vấn đề là quyền sở hữu dữ liệu

là, người sở hữu hoặc chịu trách nhiệm về dữ liệu Vấn đề sở hữu dữ liệu tồn tại khi không có chính sách xác định trách nhiệm và trách nhiệm giải trình để quản lý

dữ liệu Các định dạng dữ liệu không nhất quán của các bộ phận khác nhau tạo ra một tập hợp bổ sung Khi các tổ chức cố gắng kết hợp các ứng dụng riêng lẻ thành tích hợp hệ thống giải thưởng

Xu hướng ủy thác trách nhiệm chất lượng dữ liệu cho các nhóm kỹ thuật

những người không kiểm soát chất lượng dữ liệu, trái ngược với người dùng doanhnghiệp, những người có kiểm soát như vậy, là một cạm bẫy phổ biến khác cản trở việc tích lũy cao dữ liệu chất lượng

Những người quản lý một doanh nghiệp hoặc một phần của một doanh nghiệp được giao nhiệm vụ thử để cải thiện hiệu quả kinh doanh và giữ chân khách

hàng Bồi thường gắn liền với cải thiện lợi nhuận, thúc đẩy tăng trưởng doanh thu

và nâng cao chất lượng của dịch vụ khai thác Các chỉ số hiệu suất chính (KPI) nàyđược theo dõi chặt chẽ bởi quản lý cấp cao, những người muốn tìm và loại bỏ các khiếm khuyết gây tổn hại đến hiệu suất Nó Thật kỳ lạ khi có rất ít nhà quản lý dành thời gian để hiểu hiệu suất như thế nào bị ảnh hưởng bởi dữ liệu chất lượng kém Hai ví dụ tạo nên một trường hợp mạnh mẽ cho đầu tư trong dữ liệu chất lượng cao

Ngân hàng bán lẻ: Đối với giám đốc điều hành ngân hàng bán lẻ, quản lý rủi ro là

số một vấn đề Bất chấp rủi ro đã đóng góp cho cuộc khủng hoảng dịch vụ tài chínhnăm 2008 Mặc dù có chiến lược quản lý rủi ro, nhiều ngân hàng vẫn phải chịu những khoản lỗ lớn Một phần của vấn đề ở nhiều ngân hàng là IS của họ cho phép

họ giám sát rủi ro chỉ tại mức sản phẩm thế chấp, cho vay, hoặc thẻ tín dụng Quản

lý rủi ro cấp sản phẩm IS giám sát rủi ro của khách hàng đối với các khoản thế

Trang 17

chấp, hoặc cho vay hoặc tín dụng Thẻ, v.v nhưng không dành cho khách hàng cho tất cả các sản phẩm Với IS cấp sản phẩm, một ngân hàng không thể nhìn thấy toàn bộ rủi ro của khách hàng Những hạn chế của những điều này rủi ro cấp sản phẩm có ảnh hưởng nghiêm trọng đến hiệu quả kinh doanh vì khách hàng có rủi ro xấu có thể được xác định dễ dàng và dữ liệu khách hàng trong các IS khác nhau có thể khác nhau Ví dụ, hãy xem xét những gì xảy ra khi mỗi người đàn ông có rủi ro

ở cấp độ sản phẩm- agement IS cung cấp dữ liệu cho các IS tiếp thị Tiếp thị có thểcung cấp cho khách hàng rủi ro xấu khuyến khích lấy ra một thẻ tín dụng hoặc khoản vay mà họ không thể trả Và kể từ khi ngân hàng không thể xác định khách hàng tốt nhất của mình, họ có thể bị bỏ qua và dụ dỗđi bởi các giao dịch tốt hơn được cung cấp bởi các đối thủ cạnh tranh Kịch bản này minh họa cách dữ liệu sở hữu quản lý chất lượng và dữ liệu là rất quan trọng để quản lý rủi ro Lỗi dữ liệu và

dữ liệu không đầy đủ có thể nhanh chóng gây ra tổn thất tiếp thị và gắn kết không chính xác

Một ngân hàng bán lẻ đối mặt với những vấn đề này đã mất 16% hoạt động kinh doanh thế chấp trong vòng 18 tháng trong khi các khoản lỗ trong hoạt động kinh doanh thẻ tín dụng của nó tăng lên (Ferguson, 2012)

Chế tạo Nhiều nhà sản xuất đang thương xót một khách hàng mạnh mẽ

cơ sở bán lẻ lớn Các nhà sản xuất muốn sắp xếp các quy trình của họ với các quy trình của khách hàng bán lẻ lớn để giữ cho họ hạnh phúc Sự liên kết này làm cho

nó có thể cho một nhà bán lẻ để đặt hàng tập trung cho tất cả các cửa hàng hoặc đặthàng tại địa phương từ một manu cụ thể nhân viên thực tế Hỗ trợ cả đặt hàng trung ương và địa phương gây khó khăn cho việc lên kế hoạch đoạn trích chạy Ví dụ: mỗi trang web sản xuất phải thu thập dữ liệu đơn hàng từ hệ thống đặt hàng trung tâm và hệ thống đặt hàng địa phương để có được một bức tranh hoàn chỉnh

về những gì sản xuất tại mỗi trang web Nếu không có dữ liệu chính xác, cập nhật, các đơn đặt hàng có thể không được thực hiện, hoặc nhà sản xuất có thể có hàng

Trang 18

tồn kho dư thừa Một nhà sản xuất đã cố gắng giữ nhà bán lẻ quan trọng của nó hàilòng bằng cách thực hiện đặt hàng trung tâm và địa phương không thể xử lý

đặt hàng chính xác tại mỗi trang web sản xuất Không có quyền sở hữu dữ liệu và thiếu kiểm soát về cách dữ liệu đơn hàng chảy trong suốt hoạt động kinh doanh có tác động tiêu cực Xung đột và trùng lặp quy trình kinh doanh tại mỗi trang web sản xuất gây ra dữ liệu lỗi, dẫn đến sai lầm trong sản xuất, đóng gói và giao

hàng Khách hàng đã rất không hài lòng

Hai ví dụ này thể hiện hậu quả của việc thiếu quyền sở hữu dữ liệu và chất lượng

dữ liệu Hiểu được tác động của dữ liệu bị quản lý khiến chủ sở hữu dữ

liệu-vận chuyển và dữ liệu chính xác một ưu tiên cao hơn Tuân thủ nhiều quy định của liên bang và tiểu bang dựa trên rock-solid dữ liệu và số liệu đáng tin cậy được sử dụng để báo cáo theo quy định Quyền sở hữu dữ liệu, chất lượng dữ liệu, và dữ liệu được quản lý chính thức rất cao trong chương trình nghị sự của các giám đốc tài chính và giám đốc điều hành đang nắm giữ chịu trách nhiệm cá nhân nếu công

ty của họ bị phát hiện vi phạm quy định Vòng đời dữ liệu là một mô hình minh họa cách thức truyền dữ liệu qua một cơ quan zation, như trong hình 3.11 Vòng đời dữ liệu bắt đầu bằng việc lưu trữ trong cơ sở dữ liệu, để được tải vào kho dữ liệu để phân tích, sau đó báo cáo kiến thức công nhân hoặc được sử dụng trong cácứng dụng kinh doanh Quản lý chuỗi cung ứng (SCM), khách hàng quản lý mối quan hệ (CRM) và thương mại điện tử là các ứng dụng doanh nghiệp yêu cầu cập nhật, dữ liệu dễ truy cập để hoạt động đúng

Ba nguyên tắc dữ liệu chung liên quan đến phối cảnh vòng đời dữ liệu và trợ giúp

để hướng dẫn các quyết định đầu tư CNTT:

1 Nguyên tắc giảm giá trị dữ liệu Giá trị của dữ liệu giảm dần khi có tuổi.

Đây là một nguyên tắc đơn giản, nhưng mạnh mẽ Hầu hết các tổ chức không thể hoạt động tại hiệu suất cao nhất với các điểm mù (thiếu dữ liệu sẵn có) trong 30

Trang 19

ngày hoặc lâu hơn Các tổ chức dịch vụ tài chính toàn cầu dựa trên dữ liệu gần thờigian thực để đạt đỉnh hiệu suất.

2 Nguyên tắc sử dụng dữ liệu 90/90 Theo nguyên tắc sử dụng dữ liệu 90/90, đa

số dữ liệu được lưu trữ, cao tới 90 phần trăm, hiếm khi được truy cập sau 90 ngày (ngoại trừ mục đích kiểm toán) Đó là, khoảng 90 phần trăm dữ liệu mất phần lớn giá trị của họ sau 3 tháng

3 Nguyên tắc dữ liệu trong bối cảnh Khả năng chụp, xử lý, định dạng và

phân phối dữ liệu trong thời gian gần hoặc nhanh hơn đòi hỏi một khoản đầu tư lớnvào dữ liệu kiến trúc (Chương 2) và cơ sở hạ tầng để liên kết các hệ thống POS từ

xa với dữ liệu lưu trữ, hệ thống phân tích dữ liệu và ứng dụng báo cáo Đầu tư có thể chính đáng dựa trên nguyên tắc dữ liệu phải được tích hợp, xử lý, phân tích và for- phủ vào thông tin hành động

Khi dữ liệu trở nên phức tạp hơn và khối lượng của chúng bùng nổ, hiệu suất

cơ sở dữ liệu suy thoái Một giải pháp là sử dụng dữ liệu chủ và quản lý dữ liệu

chủ (MDM), như được giới thiệu trong Chương 2 Các quy trình MDM tích hợp

dữ liệu từ nhiều loại khác nhau các nguồn hoặc ứng dụng doanh nghiệp để tạo ra một cái nhìn đầy đủ hơn (thống nhất) về một cus- tomer, sản phẩm, hoặc thực thể khác giữa dữ liệu giao dịch trong cơ sở dữ liệu và dữ liệu phân tích trong kho dữ liệu

Mặc dù các nhà cung cấp có thể cho rằng giải pháp MDM của họ tạo ra một phiên bản duy nhất củasự thật, yêu cầu này có lẽ không đúng Trong thực tế, MDMkhông thể tạo một phiên bản thống nhất của dữ liệu vì xây dựng một chế độ xem hoàn toàn thống nhất cho tất cả dữ liệu chủ chỉ đơn giản là không thể

Tệp tham chiếu chính và thực thể dữ liệu

Trên thực tế, MDM hợp nhất dữ liệu từ nhiều nguồn dữ liệu khác nhau thànhmột tài liệu tham khảo chính

Trang 20

Tệp ence, sau đó cung cấp dữ liệu trở lại các ứng dụng, từ đó tạo ra chính xác và dữ liệu nhất quán trên toàn doanh nghiệp Trong CNTT tại nơi làm việc 3.1,những người tham gia chuỗi cung ứng chăm sóc sức khỏe về cơ bản đã phát triển

một tệp tham chiếu chính của dữ liệu chính của nó thực thể Một thực thể dữ

liệu là bất cứ điều gì thực tế hoặc trừu tượng mà công ty muốn thu thập và lưu trữ

dữ liệu Các thực thể dữ liệu chủ là các thực thể chính của một công ty, chẳng hạn như khách hàng, sản phẩm, nhà cung cấp, nhân viên và tài sản

Mỗi bộ phận có nhu cầu dữ liệu chủ khác nhau Tiếp thị, ví dụ, là

quan tâm đến giá cả sản phẩm, thương hiệu và bao bì sản phẩm, trong khi sản xuấtquan tâm đến chi phí sản phẩm và lịch trình Một tập tin tham khảo tổng thể khách hàng có thể cung cấp dữ liệu cho tất cả các hệ thống doanh nghiệp có thành phần quan hệ khách hàng, từ đó cung cấp một bức tranh thống nhất hơn về khách

hàng Tương tự, một bậc thầy sản phẩm tệp tham chiếu có thể cung cấp dữ liệu chotất cả các hệ thống sản xuất trong doanh nghiệp

MDM bao gồm các công cụ để làm sạch và kiểm tra các yếu tố dữ liệu chủ như cũng như các công cụ để tích hợp và đồng bộ hóa dữ liệu để làm cho chúng dễ truy cập hơn

MDM cung cấp một giải pháp cho những người quản lý đang thất vọng với

sự phân mảnh và phân tán nguồn dữ liệu của họ là

3.2 Kho d li u và phân tích d li u l n ữ liệu, ệu, ữ liệu, ệu, ớn và Quản

Giám đốc tiếp thị cao cấp của một nhà bán lẻ lớn ở Mỹ biết rằng công ty của cô

đã dần mất thị phần cho một đối thủ cạnh tranh trong nhiều phân khúc có lợi

nhuận của họ các ngôi sao Các khoản lỗ vẫn tiếp tục ngay cả sau khi một chiến dịch bán hàng kết hợp quảng cáo trực tuyến Tions với cải thiện hàng hóa (Brown, Chui, & Manyika, 2011) Dưới Nguyên nhân, một nhóm các nhà quản lý cấp cao

đã nghiên cứu thực tiễn của đối thủ cạnh tranh của họ

Trang 21

Họ phát hiện ra rằng các vấn đề không chỉ đơn giản là do các chiến thuật tiếp thị cơ bản, Nhưng chạy sâu hơn nhiều Đối thủ cạnh tranh:

• Đã đầu tư rất nhiều vào CNTT để thu thập, tích hợp và phân tích dữ liệu từ mỗicửa hàng và đơn vị bán hàng

• Đã liên kết các dữ liệu này với cơ sở dữ liệu của nhà cung cấp, để có thể điều chỉnh giá trong thời gian thực, để tự động sắp xếp lại các mặt hàng bán chạy và thay đổi các mặt hàng từ cửa hàng đến cửa hàng dễ dàng

• Liên tục kiểm tra, tích hợp và báo cáo thông tin ngay lập tức có sẵn trên toàn tổ chức, từ sàn cửa hàng đến văn phòng của CFO

Đội ngũ quản lý cấp cao nhận ra rằng đối thủ cạnh tranh của họ đã đánh cắp

đi khách hàng của họ vì phân tích dữ liệu lớn cho phép họ xác định chính xác cải tiến

1 Sự đa dạng: Môi trường phân tích đã mở rộng từ việc lấy dữ liệu từ

enter-hệ thống giải thưởng bao gồm dữ liệu lớn và các nguồn không có cấu trúc

2 Khối lượng: Khối lượng lớn dữ liệu có cấu trúc và không cấu trúc được phân

tích

3 Vận tốc: Tốc độ truy cập vào các báo cáo được rút ra từ dữ liệu xác định sự

khác

biệt-ence giữa phân tích hiệu quả và không hiệu quả

4 Veracity: Xác thực dữ liệu và trích xuất những hiểu biết mà người quản lý và

công nhân có thể tin tưởng là yếu tố chính của phân tích thành công Niềm tin vào phân tích đã tăng lên khó khăn hơn với sự bùng nổ của các nguồn dữ liệu cơ hội trên toàn chuỗi cung ứng từ mua hàng đến tận dụng tại cửa hàng-

quản lý ity Cụ thể, đối thủ cạnh tranh đã có thể dự đoán khách hàng như thế nào

sẽ hành xử và sử dụng kiến thức đó để được chuẩn bị để đáp ứng nhanh

chóng Điều này rường hợp là một ví dụ về những gì các nhà nghiên cứu đã

học Theo McKinsey

Trang 22

Viện toàn cầu (MGI), phân tích dữ liệu lớn đã giúp các công ty vượt trội hơn họđối thủ cạnh tranh MGI ước tính rằng các nhà bán lẻ sử dụng phân tích dữ liệu lớn

sẽ tăng

lợi nhuận hoạt động hơn 60 phần trăm Nhà bán lẻ hàng đầu, bảo hiểm, và

dịch vụ tài chính sử dụng dữ liệu lớn để chiếm thị phần khỏi đối thủ cạnh tranh địa phương- xoắn (Breuer, Forina, & Moulton, 2013) Một nghiên cứu của IBM cho thấy các công ty có phân tích và tối ưu hóa kinh doanh nâng cao có thể trải nghiệmlợi nhuận gấp 20 lần tăng trưởng và lợi nhuận cao hơn 30% trên vốn đầu tư

(ibm.com, 2011) Trong phần này, bạn sẽ tìm hiểu về giá trị, thách thức và công nghệtham gia vào việc đưa dữ liệu và phân tích để sử dụng để hỗ trợ các quyết định và hành động Bốn của các loại phân tích, khối lượng, vận tốc và độ chính xáccủa bộ phân tích ược mô tả trong Dữ liệu lớn có thể có tác động mạnh mẽ đến sự thành công của bất kỳ doanh nghiệp nào, hoặc họ có thể là một chi phí lớn đóng góp thấp Tuy nhiên, thành công không đạt được với công nghệ một mình Nhiều công ty đang thu thập và nắm bắt số lượng lớn dữ liệu, nhưng dành rất ít nỗ lực để đảm bảo tính chính xác và giá trị của dữ liệu được ghi lại ở giai đoạn giao dịch hoặc điểm xuất xứ Nhấn mạnh theo hướng này sẽ không chỉ tăng sự tự tin trong các bộ dữ liệu, nhưng cũng làm giảm đáng kể những nỗ lực cho phân tích và nâng cao chất lượng của việc ra quyết định Thành công cũng phụ thuộc vào việc đảm bảo rằng bạn tránh các giả định không hợp lệ, có thể được thực hiện bằng cách kiểm tra các giả định trong quá trình phân tích

Trang 23

3.1 CÔNG VIỆC

Như ai đó đã đăng trên blog của Harvard Business Review ( HBR ), nếu bạn tra tấn

dữ liệu đủ dài, nó sẽ thú nhận phạm vi (Neill, 2013) Đó là, phân tích sẽ sản xuấtkết quả, nhưng những kết quả đó có thể là vô nghĩa hoặc sai lệch Ví dụ, một sốtin rằng kết quả Super Bowl vào tháng Hai dự đoán liệu thị trường chứng khoán sẽ

đi lên hoặc xuống năm đó Nếu Hội nghị bóng đá quốc gia (NFC) thắng, tháng baket đi lên; mặt khác, cổ phiếu mất giá Nhìn vào kết quả trong 30 năm qua,

hầu hết các NFC đã giành được Super Bowl và thị trường đã tăng lên Thực hiện điều này có ý nghĩa gì không

KINH NGHIỆM CON NGƯỜI VÀ JUDGMENT LÀ CẦN

Chuyên môn và đánh giá của con người là cần thiết để giải thích đầu ra của phân tích (tham khảo hình 3.1) Dữ liệu là vô giá trị nếu bạn không thể phân tích, giải thích, dưới đứng, và áp dụng các kết quả trong bối cảnh Điều này mang đến một

số thách thức:

• Dữ liệu cần được chuẩn bị để phân tích Ví dụ: dữ liệu

incom-plete hoặc trùng lặp cần phải được sửa chữa

• Dữ liệu bẩn làm giảm giá trị của phân tích Sự sạch sẽ của người Viking về dữ

liệu rất quan trọng đối với các dự án khai thác và phân tích dữ liệu Các nhà phân tích đã phàn nàn phân tích dữ liệu đó giống như công việc của người quản lý vì họ dành quá nhiều thời gian trên các quy trình thủ công, dễ bị lỗi để làm sạch dữ liệu Khối lượng dữ liệu lớn và đa dạng có nghĩa là nhiều dữ liệu bẩn hơn và khó

xử lý hơn

• Dữ liệu phải được đưa vào bối cảnh có ý nghĩa Nếu phân tích sai hoặc bộ dữ

liệu được sử dụng, đầu ra sẽ vô nghĩa, như trong ví dụ về Super Bowl

Ngày đăng: 26/02/2023, 18:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w