1. Trang chủ
  2. » Luận Văn - Báo Cáo

814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp

95 44 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 95
Dung lượng 1,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Do đó, quản lý dữ liệu yêu cầu kỹnăng kỹ thuật và kỹ năng phi kỹ thuật, ví dụ: kỹ năng kinh doanh, quản trị, .Côngviệc quản lý dữ liệu cần có sự tham gia đồng thời của bên kinh doanh và

Trang 1

HỌC VIỆN NGÂN HÀNG

KHOA HỆ THÓNG THÔNG TIN QUẢN LÝ

KHÓA LUẬN TÓT NGHIỆP ĐẠI HỌC

NGHIÊN CỨU THỰC TRẠNG QUẢN LÝ DỮ LIỆU VÀ ĐỀ XUẤT GIẢI PHÁP QUẢN LÝ DỮ LIỆU HIỆU QUẢ TẠI

DOANH NGHIỆP THỰC TẬP

BÙI THỊ DOAN HẰNG

HÀ NỘI, NĂM 2020

Trang 2

KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Khóa Hệ

: TS Phan Thanh Đức : Bùi Thị Doan Hằng : 19A4040049

: HTTTA : 19 : Đại học chính quy

Hà Nội, tháng 6/2020

Trang 3

Khoá luận tốt nghiệp

LỜI CẢM ƠN

Em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới TS Phan Thanh Đức giảng viên Khoa Hệ thống thông tin Quản lý - Học viện Ngân hàng Thầy đã luôntạo điều kiện và tận tình hướng dẫn, giúp đỡ em hoàn thành đề tài khóa luận tốtnghiệp đại học

-Em xin chân thành cảm ơn Ban lãnh đạo công ty hiện tại em đang thực tập

đã tạo điều kiện thuận lợi cho em có cơ hội tìm hiểu thực tiễn trong quá trình thựctập tại công ty Đặc biệt, em xin cảm ơn anh chị Phòng Phân tích dữ liệu đã nhiệttình giúp đỡ, hướng dẫn, chia sẻ kiến thức rất mới mẻ và thực tế, giúp em hoànthành tốt đề tài khóa luận của mình

Cuối cùng em xin gửi lời cảm ơn đến toàn thể thầy cô trường Học viện Ngânhàng, đặc biệt là các thầy cô Khoa Hệ thống thông tin quản lý đã giảng dạy vàtruyền đạt cho em rất nhiều kiến thức bổ ích trong những năm tháng học tập tạitrường, giúp em trưởng thành và tự tin hơn khi tham gia thực tập và làm việc thực tếtại các doanh nghiệp

Em xin chân thành cảm ơn!

Trang 4

LỜI CAM KẾT

Em xin cam đoan kết quả đạt được trong đề tài khóa luận là sản phẩm nghiêncứu, tìm hiểu của riêng cá nhân em Trong toàn bộ nội dung của đề tài khóa luận,những điều được trình bày hoặc là của cá nhân em, hoặc là các thông tin thu thậpđược từ việc khảo sát và phỏng vấn, hoặc là được tổng hợp từ nhiều nguồn tài liệukhác nhau Những thông tin em cung cấp trong bài khóa luận có liên quan đếndoanh nghiệp nghiên cứu đều đã được sự cho phép của doanh nghiệp đó và cam kếtkhông ảnh hưởng đến lợi ích, danh tiếng công ty Tất cả tài liệu tham khảo đều cóxuất xứ rõ ràng và đều được trích dẫn hợp pháp

Em xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quyđịnh cho lời cam đoan của mình

SINH VIÊN THỰC HIỆN BÙI THỊ DOAN HẰNG

Trang 5

Khoá luận tốt nghiệp

MỤC LỤC

LỜI MỞ ĐẦU 1

CHƯƠNG 1: LÝ THUYẾT CƠ BẢN VỀ QUẢN LÝ DỮ LIỆU 3

1.1 Tổng quan về quản lý dữ liệu 3

1.2 Một số lý thuyết cơ bản trong quản lýdữ liệu 3

1.2.1 Dữ liệu và thông tin 3

1.2.2 Dữ liệu là tài sản của tổ chức 4

1.3 Nguyên tắc chung trong quản lý dữ liệu 4 1.4 Thách thức trong quản lý dữ liệu 7

1.5 Lý thuyết về khung quản lý dữ liệu 16

1.5.1 Khung quản lý dữ liệu DAMA 19

1.5.2 Các chức năng trong quản lý dữ liệu 20

CHƯƠNG 2: THỰC TRẠNG QUẢN LÝ DỮ LIỆU TẠI DOANH NGHIỆP THỰC TẬP 39

2.1 Cơ cấu tổ chức công ty 39

2.2 Tiến hành khảo sát và lập ma trận câu hỏi phỏng vấn 40

2.3 Rút ra thực trạng, vấn đề đang tồn tại trong quản lý dữ liệu của tổ chức49 2.3.1 Đặc điểm dữ liệu của tổ chức 50

2.3.2 Dữ liệu được chia sẻ, lưu trữ và sử dụng như thế nào 51

2.3.3 Một số vấn đề đang tồn tại trong quản lý dữ liệu hiện tại của tổ chức 57

CHƯƠNG 3: ĐỀ XUẤT MỘT SỐ GIẢI PHÁP QUẢN LÝ DỮ LIỆU HIỆU QUẢ TẠI DOANH NGHIỆP THỰC TẬP 63

3.1 Cải thiện chất lượng dữ liệu 63

3.2 Đầu tư cơ sở hạ tầng, trang thiết bị, công cụ quản lý dữ liệu 66

3.3 Có chính sách đào tạo và thu hút nguồn nhân lực chất lượng cao 68

KẾT LUẬN 76

Trang 6

CNTT Công nghệ thông tin

DANH MỤC CÁC CHỮ VIẾT TẮT

Trang 7

DANH MỤC CÁC BẢNG

Bảng 1: So sánh lưu trữ tập trung và lưu trữ phân tán 35

Bảng 2: Ma trận câu hỏi phỏng vấn 48

Bảng 3: Mô tả các trường hợp dữ liệu sai 59

DANH MỤC HÌNH VẼ Hình 1: Vòng đời dữ liệu 13

Hình 2: Mô hình liên kết chiến lược 17

Hình 3: Mô hình thông tin Amsterdam 18

Hình 4: Data Management Wheel 20

Hình 5: Tiêu chuẩn đo lường chất lượng dữ liệu 26

Hình 6: Quản lý dữ liệu chủ 30

Hình 7: Quản lý dữ liệu tham chiếu 30

Hình 8: Kiến trúc dữ liệu 31

Hình 9: Mô hình ETL 33

Hình 10: Mô hình ELT 34

Hình 11: Cơ cấu tổ chức 39

Hình 12: Sơ đồ các khía cạnh quản lý dữ liệu 41

Hình 13: Sơ đồ mô tả các vấn đề đang tồn tại trong quản lý dữ liệu 49

Hình 14: Khung quản lý dữ liệu của tổ chức 53

Hình 15: Luồng thu thập dữ liệu 55

Hình 16: Nguồn thu thập dữ liệu 69

Hình 17: Lộ trình phát triển nghề nghiệp 70

Hình 18: Quy mô nhân sự dự kiến 74

Khoá luận tốt nghiệp

Trang 8

là bài toán khó cho bất kỳ doanh nghiệp nào hiện nay.

Với kinh nghiệm thực tế khi may mắn được làm việc trực tiếp về dữ liệu, được thamgia vào các buổi hội thảo, đào tạo về Dữ liệu lớn và Máy học- một lĩnh vực của trítuệ nhân tạo đã cho em thấy được tầm quan trọng của quản lý dữ liệu Các doanhnghiệp trong thực tế khi triển khai làm các bài toán về Dữ liệu lớn, Học máy thìthường không đạt thành công như mong muốn, thậm chí thất bại là do chất lượng

dữ liệu kém, quy trình quản lý dữ liệu không hiệu quả Một doanh nghiệp hiện naymuốn có được lợi thế cạnh tranh so với đối thủ trên thị trường thì họ không thểkhông khai thác dữ liệu hỗ trợ cho các bài toán kinh doanh của mình Để làm đượcđiều đó thì cần phải quản lý dữ liệu hiệu quả để có được dữ liệu thật sự chất lượng.Chính vì những lý do này đã thôi thúc em quyết tâm thực hiện đề tài khóa luận

tốt nghiệp 'Nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý

dữ liệu hiệu quả tại doanh nghiệp thực tập” nhằm mục đích đưa ra được những

giải pháp thiết yếu để cải thiện quản lý dữ liệu, trọng tâm nâng cao chất lượng dữliệu Từ đó, giúp doanh nghiệp nghiên cứu có thể khai thác dữ liệu, phục vụ cho cácbài toán kinh doanh và trí tuệ nhân tạo

Trang 9

Khoá luận tốt nghiệp

2 Mục tiêu và nhiệm vụ nghiên cứu

Mục tiêu đề tài khóa luận: Thông qua việc tìm hiểu những kiến thức tổng quan

và những tiêu chuẩn trong quản lý dữ liệu, từ đó có thể đề xuất được các giải phápgiúp doanh nghiệp nghiên cứu quản lý dữ liệu hiệu quả hơn

Nhiệm vụ nghiên cứu: Nghiên cứu về những lý thuyết cơ bản trong quản lý dữliệu, các khung quản lý dữ liệu phổ biến hiện nay trên thế giới Tiến hành khảo sátthực trạng quản lý của doanh nghiệp hiện nay, phát hiện những vấn đề còn tồn tạitrong doanh nghiệp thực tập và từ đó đề xuất các giải pháp nhằm cải thiện chấtlượng dữ liệu, nâng cao hiệu quả quản lý dữ liệu,

3 Phương pháp nghiên cứu

Phương pháp nghiên cứu chính được sử dụng trong đề tài đó là: Phương phápquan sát, Phương pháp phỏng vấn, Phương pháp điều tra bảng hỏi, Phương phápdiễn dịch

4 Ket cấu của đề tài

Đề tài được chia làm 3 phần với nội dung chính như sau:

Chương 1: Lý thuyết cơ bản về quản lý dữ liệu

Nội dung chương 1 bao gồm 5 nội dung chính: (1) Tổng quan về quản lý dữliệu, (2) Một số lý thuyết cơ bản trong quản lý dữ liệu, (3) Nguyên tắc chung trongquản lý dữ liệu, (4) Thách thức trong quản lý dữ liệu, (5) Lý thuyết về khung quản

lý dữ liệu

Chương 2: Thực trạng quản lý dữ liệu tại doanh nghiệp thực tập

Nội dung chương 2 bao gồm nội dung chính: (1) Cơ cấu tổ chức công ty, (2)Tiến hành khảo sát và lập ma trận câu hỏi phỏng vấn, (3) Rút ra thực trạng, vấn đềđang tồn tại trong quản lý dữ liệu của tổ chức

Chương 3: Đề xuất một số giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập

Nội dung chương 3 bao gồm 2 nội dung chính: (1) Cải thiện chất lượng dữliệu, (2) Đầu tư cơ sở hạ tầng, trang thiết bị, công cụ quản lý dữ liệu, (3) Có chínhsách đào tạo và thu hút nguồn nhân lực chất lượng cao

Trang 10

Các hiểu đơn giản khi nói về vai trò của quản lý dữ liệu: “Data managementbest practices= Better data analytics” nghĩa là dữ liệu được quản lý hiệu quả thì việcphân tích sẽ diễn ra tốt hơn và kết quả thu được đạt độ tin cậy cao hơn, từ đó cácquyết định đưa ra sẽ chính xác hơn Các dự án về khai phá dữ liệu, dữ liệu lớn hayphân tích dữ liệu hay gặp phải thất bại thường do nguyên nhân xuất phát từ khâuquản lý dữ liệu không hợp lý Điển hình như dữ liệu không trong trạng thái “sẵnsàng”, chưa hoàn chỉnh nhưng đã được đem vào phân tích một cách vội vã, cụ thể:

dữ liệu chưa được chọn lọc, chưa được làm sạch hay chưa trải qua quá trình chuyểnđổi đúng với định dạng yêu cầu đặt ra, dữ liệu đem vào phân tích không tương thíchvới phần mềm phân tích,

Hoạt động trong quản lý dữ liệu có phạm vi rộng, từ khả năng đưa ra các quyếtđịnh nhất quán về việc làm thế nào đạt được các giá trị chiến lược từ dữ liệu đếntriển khai kỹ thuật và hiệu suất của cơ sở dữ liệu Do đó, quản lý dữ liệu yêu cầu kỹnăng kỹ thuật và kỹ năng phi kỹ thuật, ví dụ: kỹ năng kinh doanh, quản trị, Côngviệc quản lý dữ liệu cần có sự tham gia đồng thời của bên kinh doanh và công nghệthông tin, và các vai trò trong hai mảng này phải có khả năng cộng tác để đảm bảochắc chắn rằng một tổ chức có được nguồn dữ liệu chất lượng cao mà đáp ứng đượcnhu cầu chiến lược của tổ chức

Ngày nay, yêu cầu về quản lý dữ liệu hiệu quả ngày càng trở nên quan trọng

và cấp bách hơn, đặc biệt là đối với các tổ chức lớn khi họ phải tuân thủ các quy tắc,luật lệ về bảo mật dữ liệu cá nhân, bảo mật thông tin khách hàng,

1.2 Một số lý thuyết cơ bản trong quản lý dữ liệu

1.2.1 Dữ liệu và thông tin

Dữ liệu là gì?

Trang 11

Khoá luận tốt nghiệp

Dữ liệu là một khái niệm rất trừu tượng, là thông tin đã được đưa vào máytính Dữ liệu sau khi tập hợp lại và xử lý sẽ cho ta thông tin Hay nói cách khác, dữliệu là thông tin đã được mã hóa trong máy tính Chẳng hạn, con số điểm thi là một

dữ liệu hoặc con số về nhiệt độ trong ngày là một dữ liệu,

1.2.2 Dữ liệu là tài sản của tổ chức

Dữ liệu là một nguồn lực kinh tế được sở hữu và kiểm soát nhằm tạo ra giá trịcho tổ chức Hiện nay, dữ liệu đang được nhìn rộng rãi như là một dạng tài sản củadoanh nghiệp mặc dù quá trình quản lý dữ liệu vẫn đang được phát triển Đầunhững năm 1990, một số tổ chức đã đặt ra câu hỏi liệu rằng giá trị cốt lõi trong dữliệu có được chuyển đổi tính như giá trị tiền tệ Hiện nay câu trả lời quá rõ ràng.Xuất phát từ lịch sử kinh tế, dầu mỏ xuất hiện, tạo ra một ngành công nghiệp pháttriển nhanh về lợi nhuận, khiến chính phủ phải can thiệp để kiềm chế những doanhnghiệp lớn Giờ đây, đang có nhiều mối quan ngại tương tự xuất hiện xung quanh

dữ liệu, vốn là thứ dầu mỏ của kỷ nguyên số Năm tập đoàn CNTT khổng lồAlphabet (công ty mẹ của Google), Amazon, Apple, Facebook và Microsoft đã trởthành 5 công ty niêm yết có giá trị vốn hóa lớn nhất trên thế giới Các công ty nàythay vì dựa vào thị phần lớn để ép giá người tiêu dùng thì nhiều dịch vụ của họ lạiđược cung cấp hoàn toàn miễn phí, đổi lại họ thu thập dữ liệu từ người dùng Việccác công ty Internet kiểm soát dữ liệu mang lại cho họ sức mạnh to lớn và nguồndoanh thu khổng lồ

Không nằm ngoài vùng của việc tận dụng dữ liệu như là tài sản mới Các tổchức, doanh nghiệp dựa vào dữ liệu để đưa ra các quyết định tối ưu và điều hànhhiệu quả hơn Các công ty kinh doanh sử dụng dữ liệu để hiểu khách hàng hơn, đểtạo ra các sản phẩm và dịch vụ mới, để cải thiện hiệu quả điều hành, cắt giảm chiphí và kiểm soát rủi ro Các cơ quan chính phủ, tổ chức giáo dục, tổ chức phi chínhphủ cũng cần nguồn dữ liệu chất lượng cao để làm “kim chỉ nam” cho các hoạtđộng tác nghiệp, chiến thuật và chiến lược Vì các tổ chức ngày càng phụ thuộc vào

dữ liệu, thì giá trị mà dữ liệu đem lại ngày càng được thể hiện một cách rõ ràng hơn

1.3 Nguyên tắc chung trong quản lý dữ liệu

Quản lý dữ liệu cũng cần có những yêu cầu giống như quản lý tài sản kháctrong doanh nghiệp Tức là để có thể quản lý được dữ liệu, cần phải biết được dữ

Trang 12

liệu của tổ chức là gì, cần có những gì để thực hiện được, và sau đó tổ chức cần phảixác định cách sử dụng tài sản dữ liệu theo một cách hiệu quả nhất để đạt được mụctiêu của tổ chức.

Giống như với các quy trình quản lý khác, quản lý dữ liệu cần phải được cân

bằng giữa các yêu cầu chiến lược và yêu cầu tác nghiệp (tầm nhìn chiến lược phải

phù hợp với khả năng làm được của doanh nghiệp') Tổ chức có thể đạt được yếu tố

cân bằng này bằng cách tuân theo tập các nguyên tắc sau đây để phát huy được tínhnăng nổi bật trong quản lý dữ liệu, đồng thời là kim chỉ nan giúp tổ chức thực hiệncông việc quản lý dữ liệu:

- Dữ liệu là một loại tài sản với các đặc tính riêng biệt: Dữ liệu là tài sản của

tổ chức nhưng khác so với những loại tài sản khác trong việc làm thế nào để quản lý

vì dữ liệu không phải là hữu hình, không thể cầm nắm hay tiêu thụ giống như tiền tệhay các tài sản vật lý khác

- Dữ liệu mang lại giá trị trong các giai đoạn kinh tế nhất định: Gọi dữ liệu là

tài sản, ngụ ý rằng nó mang lại giá trị Các tổ chức muốn đưa ra các quyết định tốthơn, thì cần phải dựa vào dữ liệu nhưng dữ liệu chỉ có giá trị trong một giai đoạnkinh tế nhất định Giá trị dữ liệu giảm dần theo thời gian

- Quản lý dữ liệu đồng nghĩa với việc là quản lý chất lượng của dữ liệu: Quản

lý dữ liệu hiệu quả phải phù hợp với mục đích Để quản lý được chất lượng dữ liệu,các tổ chức phải đảm bảo rằng họ hiểu được yêu cầu của các bên liên quan và có thể

đo lường chất lượng dữ liệu theo các yêu cầu này

- Sử dụng siêu dữ liệu để quản lý dữ liệu: Công việc quản lý bất kỳ tài sản nào

thì đều yêu cầu dữ liệu về tài sản đó (nhân viên đang sử dụng, mã tài sản, giá trị vốnhóa, ) Dữ liệu dùng để quản lý và sử dụng dữ liệu được gọi là Siêu dữ liệu(Metadata) Bởi vì dữ liệu không thể giữ hoặc chạm vào, để hiểu dữ liệu là gì vàlàm thế nào để sử dụng dữ liệu đòi hỏi cần phải có kiến thức về siêu dữ liệu Siêu

dữ liệu bắt nguồn từ một loạt các quy trình liên quan đến việc khởi tạo, xử lý và sửdụng dữ liệu Quy trình đó bao gồm các công việc là: kiến trúc dữ liệu, mô hìnhhóa, quản trị, quản lý chất lượng của dữ liệu, phát triển hệ thống điều hành kinhdoanh, phân tích dữ liệu

- Cần thiết lên kế hoạch để quản lý dữ liệu: Các tổ chức, đặc biệt là các tổ

Trang 13

Khoá luận tốt nghiệp

chức lớn thì đều có những hạ tầng kỹ thuật và quy trình kinh doanh phức tạp Dữliệu được tạo ra ở nhiều nơi và được di chuyển giữa các nơi khác nhau phục vụ chomục đích sử dụng Để có thể phối hợp công việc một cách thuận lợi sao cho đạtđược kết quả đáp ứng được những yêu cầu kinh doanh đề ra, đòi hỏi việc chúng tacần lập kế hoạch để quản lý dữ liệu từ giai đoạn xây dựng kiến trúc đến giai đoạnphân tích

- Công việc quản lý dữ liệu phải là đa chức năng: quản lý dữ liệu cần có trình

độ và kỹ năng chuyên môn sâu rộng Một người hay một nhóm nhỏ riêng lẻ khôngthể quản lý toàn bộ dữ liệu của tổ chức được Việc quản lý dữ liệu yêu cầu cả những

kỹ năng kỹ thuật, phi kỹ thuật và năng lực cộng tác giữa các cá nhân và các nhómhay phòng ban chức năng khác nhau trong tổ chức

- Quản lý dữ liệu yêu cầu cần phải có một góc nhìn doanh nghiệp: Mặc dù

được triển khai với các nền tảng kỹ thuật, nhưng dữ liệu phục vụ cho toàn doanhnghiệp và tạo ra giá trị thì quản lý dữ liệu mới thật sự hiệu quả Đây là lý do tại sao

mà quản lý dữ liệu và quản trị dữ liệu cần được đan xen với nhau Tóm lại, dữ liệuđược quản lý nhằm mục đích tạo ra giá trị cho doanh nghiệp

- Cần phải tính toán đến nhiều khía cạnh khi quản lý dữ liệu: Vì cách thức tạo

ra dữ liệu, mục đích sử dụng hay yêu cầu của những người sử dụng dữ liệu liên tụcthay đổi, mở rộng cả về chiều rộng và chiều sâu Điều đó yêu cầu cần phải quản lý

dữ liệu cũng liên tục phải thay đổi, phát triển linh hoạt để đáp ứng được yêu cầu

- Quản lý dữ liệu chính là quản lý vòng đời dữ liệu: Dữ liệu cũng có vòng đời

và quản lý dữ liệu yêu cầu quản lý vòng đời của nó Vì dữ liệu ngày một nhiều lên,đặc biệt trong với sự bùng nổ Internet như hiện nay, quản lý vòng đời dữ liệu ngàycàng phức tạp hơn Thực hiện quản lý dữ liệu cũng tức là quản lý vòng đời dữ liệu

- Các loại dữ liệu khác nhau có đặc điểm vòng đời khác nhau: Cũng từ lý do

này, dữ liệu khác nhau sẽ có những yêu cầu quản lý khác nhau Thực hiện quản lý

dữ liệu thì cần phải nhận ra những khác biệt này và đủ linh hoạt để đáp ứng các yêucầu khác nhau trong vòng đời dữ liệu

- Quản lý dữ lệu cần phải quản lý cả rủi ro: Cũng giống như những tài sản

khác, dữ liệu cũng chứa những rủi ro cho tổ chức Dữ liệu có thể bị mất, đánh cắphay sử dụng sai mục đích Các doanh nghiệp phải đặt ra các quy định cho việc sử

Trang 14

dụng dữ liệu của mình Các rủi ro liên quan đến dữ liệu phải được quản lý như mộtphần của vòng đời dữ liệu

- Những yêu cầu về quản lý dữ liệu là nhân tố quyết định tới các quyết định

công nghệ thông tin

1.4 Thách thức trong quản lý dữ liệu

Bởi vì quản lý dữ liệu có các đặc điểm riêng biệt xuất phát từ các thuộc tínhcủa chính dữ liệu nên có một số thách thức trong quản lý dữ liệu

- Dữ liệu khác với các tài sản khác

Những tài sản vật chất thông thường có thể nhìn thấy và chạm được hay dichuyển từ nơi này đến nơi khác Chúng có thể chỉ ở một nơi tại một thời điểm nhấtđịnh và tài sản tài chính thì phải luôn kê khai vào bảng cân đối kế toán Nhưng dữliệu thì lại khác vì dữ liệu không hữu hình và mang tính bền vững Theo thời gian,

dữ liệu không bị hao mòn, tuy nhiên giá trị của dữ liệu có thể bị thay đổi Dữ liệurất dễ dàng để sao chép và chuyển đổi tuy nhiên lại rất khó khăn trong việc tái tạolại nếu bị mất hoặc bị phá hủy Khi dữ liệu được sử dụng và không bị hao mòn đi,hay thậm chí dữ liệu bị đánh cắp mà không hề bị mất đi Dữ liệu mang tính linhđộng và có thể được sử dụng cho nhiều mục đích khác nhau Cùng một tập dữ liệugiống nhau có thể được sử dụng bởi nhiều người vào cùng một thời điểm tại nhiềunơi khác nhau- điểm khác biệt rõ nhất giữa dữ liệu so với các tài sản khác Dữ liệungày một nhiều lên, điều này khiến hầu hết các tổ chức phải quản lý kích thước dữliệu và mối quan hệ giữa các tập dữ liệu Những sự khác biệt lớn của dữ liệu so vớicác tài sản khác đã đặt ra thách thức: “Làm thế nào để tính toán và chuyển hóa giátrị của dữ liệu thành giá trị tiền tệ” Nếu không quy đổi ra giá trị tiền tệ thì rất khó

để có thể đo lường được mức độ đóng góp của dữ liệu vào thành công của tổ chức.Những đặc tính khác biệt của dữ liệu cũng làm xuất hiện các vấn đề khác mà ảnhhưởng đến quá trình quản lý dữ liệu, ví dụ như: Sở hữu dữ liệu, Đo lường dữ liệu

mà tổ chức đang có, chống việc sử dụng sai dữ liệu, quản lý các rủi ro hay làm thếnào để đề ra và thực hiện các tiêu chuẩn đảm bảo được chất lượng dữ liệu

Mặc dù đo lường giá trị của dữ liệu thật sự là một thách thức, nhưng hầu hếtchúng ta đều nhận ra được rằng dữ liệu mang lại giá trị Dữ liệu của tổ chức là đặctrưng duy nhất cho chính tổ chức đó, tức là dữ liệu của tổ chức là duy nhất: như dữ

Trang 15

Khoá luận tốt nghiệp

liệu về khách hàng, hàng tồn kho sản phẩm hoặc lịch sử yêu cầu Neu bị mất hoặc

bị phá hủy, thì việc thay thế hay khôi phục dữ liệu là không thể hoặc cực kỳ tốnkém Dữ liệu cũng là một phương tiện để quản lý các tài sản khác và hoạt động kinhdoanh của công ty dưới dạng siêu dữ liệu Như vậy, dữ liệu sẽ giúp cho tổ chức cócái nhìn sâu sắc hơn về chính mình

Trong tổ chức, dữ liệu và thông tin là hai yếu tố quan trọng để đưa ra cácquyết định trong kinh doanh Hầu hết các giao dịch kinh doanh của tổ chức bao gồmviệc trao đổi thông tin và thông tin ngày nay được trao đổi thông qua phương tiệnđiện tử, tạo ra một đường dữ liệu Đường dữ liệu này có thể phục vụ các mục đíchkhác nhau cho tổ chức Dữ liệu có thể cho biết tổ chức đang làm gì hay như thế nào

Vì dữ liệu đóng một vai trò rất quan trọng trong tổ chức, nên cần thiết quản lý dữliệu hiệu quả

- Thách thức trong xác định giá trị dữ liệu

Đối với những loại tài sản khác, như cổ phiếu thì việc tính toán giá trị lại dễdàng, đó là sự chênh lệch giữa giá mua và bán cổ phiếu Nhưng với dữ liệu, nhữngtính toán này rất phức tạp bởi vì không hề có tiêu chuẩn nào để tính toán chi phí haylợi nhuận mà dữ liệu đem lại Vì dữ liệu của một tổ chức là duy nhất, có thể tiếp cậnđịnh giá dữ liệu bằng cách xác định rõ các loại chi phí và lợi ích chung được áp

dụng nhất quán trong một tổ chức Liệt kê một số chi phí và lợi ích thu được từ dữ

liệu như sau:

+ Chi phí lấy và lưu trữ dữ liệu

+ Chi phí thay thế dữ liệu nếu dữ liệu bị mất

+ Tổ chức bị ảnh hưởng như thế nào nếu như dữ liệu bị thiếu

+ Chi phí giảm thiểu rủi ro và chi phí tiềm ẩn rủi ro liên quan đến dữ liệu

+ Chi phí cải thiện dữ liệu

+ Lợi ích của dữ liệu chất lượng cao

+Đối thủ sẽ trả bao nhiêu tiền để có được dữ liệu

+Dữ liệu có thể bán được cho những ai

+Doanh thu sẽ thu được từ việc tận dụng dữ liệu

Thách thức chính đối với việc định giá tài sản dữ liệu là giá trị của dữ liệu theongữ cảnh vì tùy theo từng hoàn cảnh, dữ liệu có thể có giá trị đối với tổ chức này

Trang 16

nhưng lại không có ý nghĩa gì đối với tổ chức khác Gía trị của dữ liệu đôi lúc chỉmang tính chất tạm thời, có nghĩa là dữ liệu có giá trị trong quá khứ nhưng lạikhông có ý nghĩa gì ở hiện tại Tuy nhiên, trong một tổ chức, vẫn có những dữ liệunhất định có giá trị theo thời gian, điển hình là dữ liệu khách hàng- một nguồn dữliệu đáng tin cậy Thông tin khách hàng thậm chí tăng giá trị lên theo thời gian, vì

có nhiều dữ liệu tích lũy liên quan đến hành vi khách hàng

Liên quan đến quản lý dữ liệu, việc thiết lập các cách để liên kết giá trị tàichính với dữ liệu rất quan trọng bởi vì tổ chức cần hiểu tài sản của mình trong các

kỳ tài chính để tạo ra các quyết định nhất quán Đưa giá trị vào dữ liệu đã trở thành

cơ sở của việc đưa giá trị vào hoạt động quản lý dữ liệu Qúa trình định giá dữ liệu

có thể được sử dụng một phương tiện quản lý sự thay đổi Việc yêu cầu các chuyêngia quản lý dữ liệu và các bên liên quan để hiểu giá trị tài chính trong dữ liệu sẽgiúp cho tổ chức hiểu sâu sắc về giá trị kinh tế mà dữ liệu đem lại, nhờ đó mà cũng

dễ dàng tiếp cận quản lý dữ liệu hợp lý hơn

- Chất lượng của dữ liệu

Đảm bảo dữ liệu chất lượng cao là trọng tâm của quản lý dữ liệu Các tổ chứcquản lý dữ liệu bởi vì họ muốn tận dụng và sử dụng dữ liệu Nếu các tổ chức khôngthể dựa vào dữ liệu để kinh doanh, thì những nỗ lực để thu thập, lưu trữ, bảo mật dữliệu sẽ bị lãng phí Để dữ liệu có thể đáp ứng được yêu cầu kinh doanh, nhữngchuyên gia dữ liệu cần sự trao đổi và hợp tác với người sử dụng dữ liệu để địnhnghĩa những yêu cầu kinh doanh và yêu cầu về dữ liệu, hiển nhiên bao gồm cả việcđảm bảo dữ liệu đạt chất lượng cao

Dữ liệu được liên kết khá chặt chẽ với công nghệ thông tin Các đội công nghệthường lưu trữ dữ liệu mà bỏ qua chất lượng dữ liệu Nhưng những người sử dụng

dữ liệu, dựa vào dữ liệu để làm báo cáo, hỗ trợ ra quyết định thì không thể khôngquan tâm đến chất lượng dữ liệu Họ thường cho rằng dữ liệu đáng tin cậy, cho tớikhi họ có một lý do nào đó để nghi ngờ dữ liệu mà mình đang sử dụng liệu có đángtin không? Một khi họ đánh mất niềm tin, rất khó để lấy lại nó

Hầu hết việc sử dụng dữ liệu liên quan đến việc học hỏi từ nó để áp dụng vàtạo ra giá trị từ dữ liệu Ví dụ như từ việc nghiên cứu dữ liệu khách hàng, chúng ta

sẽ hiểu hơn về hành vi, thói quen, sở thích của họ để từ đó cải thiện sản phẩm, dịch

Trang 17

Khoá luận tốt nghiệp

vụ và đánh giá được hiệu quả kinh doanh của tổ chức hay xu hướng của thị trường,giúp tổ chức có thể đưa ra được chiến lược kinh doanh tốt hơn, lôi kéo được nhiềukhách hàng mới hơn Ngược lại, dữ liệu chất lượng kém sẽ ảnh hưởng tiêu cực đếncách nhìn nhận của bộ phận chiến lược hay nhà quản trị, dẫn đến việc đưa ra cácquyết định sai lầm Không dừng ở đó, dữ liệu chất lượng kém cũng gây chi phí vớibất kỳ tổ chức nào Các chuyên gia ước tính rằng một tổ chức dành 10-30 % doanhthu để xử lý các vấn đề liên quan đến chất lượng dữ liệu IBM ước tính dữ liệu chấtlượng kém gây tổn thất 3.1 triệu đô la mỗi năm Rất nhiều chi phí mà dữ liệu chấtlượng kém gây ra một cách gián tiếp, vì vậy mà rất khó để đo lường được chi phíthật sự:

Những chi phí mà dữ liệu chất lượng kém gây ra là:

+Nhiều dữ liệu rác

+ Công việc phải lặp đi lặp lại nhiều lần để xử lý

+ Thời gian và công sức dành ra để sửa lỗi

+ Tổ chức không hiệu quả hoặc năng suất thấp

+ Các xung đột trong điều hành tổ chức doanh nghiệp

+ Sự không hài lòng khách hàng (Customer disatisfaction)

+ Các chi phí cơ hội, bao gồm không có khả năng đổi mới

+ Chi phí uy tín

Những lợi ích mà dữ liệu chất lượng cao mang lại là:

+ Nâng cao trải nghiệm khách hàng

+ Tăng năng suất

+ Giảm rủi ro

+ Tăng các cơ hội mới

+ Tăng doanh thu

+ Giúp tổ chức đạt được lợi thế cạnh tranh từ việc tìm ra giá trị từ dữ liệukhách hàng, am hiểu sản phẩm, quy trình và những cơ hội

Từ những chi phí và lợi nhuận tiềm ẩn, quản lý chất lượng dữ liệu không phải

là công việc xử lý một lần là xong Để có được dữ liệu chất lượng cao đòi hỏi cầnphải có kế hoạch, sự cam kết và tư duy xây dựng chất lượng dữ liệu theo các quytrình và hệ thống Tất cả các chức năng của quản lý dữ liệu có thể ảnh hưởng đến

Trang 18

- Lên kế hoạch để quản lý dữ liệu tốt hơn

Để có thể khai thác giá trị từ dữ liệu thì không hề đơn giản và không thể giảiquyết được ngày một, ngày hai Khai thác dữ liệu là một quy trình gồm nhiều bước,

mà bắt đầu bằng sự thừa nhận rằng tổ chức có thể kiểm soát cách họ đạt được dữliệu và tạo ra dữ liệu Nếu họ coi dữ liệu giống như một sản phẩm họ tạo ra, thì họ

sẽ đưa ra các quyết định tốt hơn thông qua vòng đời dữ liệu Các quyết định trênyêu cầu tư duy hệ thống (systems thinking) vì những yếu tố sau:

+ Các cách dữ liệu kết nối các quy trình kinh doanh có thể coi là riêng biệt

+Mối quan hệ giữa các quy trình kinh doanh và công nghệ sẽ hỗ trợ việc đưa

ra quyết định

+Việc thiết kế và kiến trúc hệ thống lưu trữ dữ liệu

+ Cách dữ liệu có thể được sử dụng để thúc đẩy chiến lược tổ chức

Việc lên kế hoạch để quản lý dữ liệu tốt hơn yêu cầu một chiến lược để kiếntrúc, mô hình hóa, và thiết kế các chức năng khác Ngoài ra, việc lên kế hoạch cũngphụ thuộc vào chiến lược cộng tác giữa kinh doanh và khả năng lãnh đạo công nghệthông tin, khả năng để thực hiện hiệu quả với các dự án cá nhân Thách thức ở đây

là luôn luôn có các áp lực về mặt tổ chức, cũng như những áp lực về thời gian vàtiền bạc sẽ cản trở việc lên một kế hoạch tốt hơn Từ đó, yêu cầu các tổ chức phảicân bằng mục tiêu ngắn hạn và dài hạn khi họ triển khai các chiến lược của mình

- Quản lý siêu dữ liệu

Các tổ chức yêu cầu siêu dữ liệu đáng tin cậy để quản lý dữ liệu như là một tàisản Siêu dữ liệu nên được hiểu một các toàn diện Siêu dữ liệu không chỉ bao gồmsiêu dữ liệu kỹ thuật, kinh doanh, vận hành, mà bao gồm cả siêu dữ liệu được nhúngtrong kiến trúc dữ liệu, mô hình dữ liệu, các yêu cầu bảo mật dữ liệu, các tiêu chuẩntích hợp dữ liệu, các quy trình vận hành dữ liệu

Siêu dữ liệu mô tả: tổ chức đang có dữ liệu gì, đại diện cho điều gì, được phânlớp như thế nào, dữ liệu đến từ đâu, được dịch chuyển như thế nào trong tổ chức, ai

có thể sử dụng hoặc không sử dụng dữ liệu, và liệu rằng dữ liệu có đạt chất lượngcao hay không? Dữ liệu rất trừu tượng Thách thức ở đây là siêu dữ liệu cũng là mộtdạng dữ liệu và cũng cần được quản lý như dữ liệu Các tổ chức thường không quản

Trang 19

Khoá luận tốt nghiệp

lý tốt dữ liệu là do họ không quản lý tốt siêu dữ liệu Quản lý siêu dữ liệu thườngcung cấp một điểm khởi đầu cho việc cải tiến trong quản lý dữ liệu nói chung

- Quản lý dữ liệu là một công việc đa chức năng

Quản lý dữ liệu là một quy trình phức tạp Dữ liệu được quản lý ở nhiều nơikhác nhau trong phạm vi một tổ chức Các bộ phận trong tổ chức có trách nhiệmthực hiện với các giai đoạn khác nhau của vòng đời dữ liệu Quản lý dữ liệu yêu cầucác kỹ năng khác nhau, bao gồm:

+Kỹ năng thiết kế các hệ thống

+Kỹ năng kỹ thuật cao để quản trị thiết bị phần cứng và xây dựng phần mềm+Năng lực phân tích để thấu hiểu các vấn đề đang xảy ra

+Kỹ năng phân tích diễn giải dữ liệu

+Khả năng giải thích để mang lại sự đồng nhất giữa các định nghĩa và mô hìnhkhi báo cáo kết quả tới các bộ phận khác

+Khả năng tư duy chiến lược để nhìn ra được các cơ hội kinh doanh để đạtđược mục tiêu

Trong một tổ chức, quản lý dữ liệu là công việc chung của nhiều người Mỗingười lại có một hoặc một vài kỹ năng được nêu ở trên Thách thức ở đây là làm sao

có thể kết nối họ lại với nhau, cộng tác và hỗ trợ tốt trong công việc để đạt đượcmục tiêu chung của tổ chức

- Quản lý dữ liệu chính là quản lý vòng đời dữ liệu

Cũng giống như những tài sản khác, dữ liệu cũng có vòng đời Các tổ chứccần hiểu rõ và lên kế hoạch cho vòng đời dữ liệu nếu họ muốn quản lý dữ liệu hiệuquả Dữ liệu được quản lý tốt là được quản lý một cách có chiến lược, với một tầmnhìn là dữ liệu đó sẽ được sử dụng như thế nào Một tổ chức có chiến lược khôngchỉ xác định các yêu cầu, nội dung dữ liệu mà còn xác định các yêu cầu quản lý dữliệu Các yêu cầu trên bao gồm quy định, chính sách và kỳ vọng đối với việc sửdụng dữ liệu, quản lý dữ liệu, quản lý chất lượng và bảo mật tiếp cận của doanhnghiệp về thiết kế, và một tiếp cận phù hợp giữa hạ tầng và phát triển phần mềm.Vòng đời dữ liệu dựa trên vòng đời của sản phẩm Không nên nhầm lẫn vớivòng đời phát triển hệ thống Về mặt khái niệm, vòng đời dữ liệu dễ dàng để mô tả.Vòng đời dữ liệu bao gồm các quy trình tạo ra dữ liệu hoặc thu thập dữ liệu, các

Trang 20

quy trình di chuyển, biến đổi và lưu trữ và khả năng chia sẻ, các quy trình sử dụnghoặc áp dụng dữ liệu, cũng như các quy trình xử lý dữ liệu Dữ liệu có thể được làmsạch, chuyển đổi, tích hợp, nâng cấp hay tích hợp thông qua vòng đời của nó Vì dữliệu được sử dụng hoặc nâng cấp, sẽ thường tạo ra những dữ liệu mới khác, vì thếvòng đời dữ liệu là các vòng lặp khép kín Dữ liệu hiếm khi tĩnh.

Trọng tâm của quản lý dữ liệu trong vòng đời dữ liệu có một số ý nghĩa quantrọng:

+ Tạo ra dữ liệu và sử dụng dữ liệu là các điểm quan trọng nhất trong vòng

đời dữ liệu: Quản lý dữ liệu phải được thực hiện với sự hiểu biết về cách dữ liệu

được tạo ra, hoặc thu được, cũng như cách sử dụng dữ liệu Dữ liệu chỉ có giá trịkhi nó được tiêu thụ và được sử dụng

Hình 1: Vòng đời dữ liệu

+ Quản lý chất lượng dữ liệu phải được quản lý thông qua vòng đời dữ liệu:

Quản lý chất lượng dữ liệu là trung tâm của quản lý dữ liệu Dữ liệu chất lượng thấp

Trang 21

Khoá luận tốt nghiệp

đại diện cho chi phí và rủi ro, hơn là giá trị Các tổ chức thường thấy khó khăn trongviệc quản lý chất lượng dữ liệu bởi vì dữ liệu thông thường được tạo như một sảnphẩm phụ hoặc các quy trình hoặc các quá trình điều hành và các tổ chức thườngkhông đặt tiêu chuẩn rõ ràng về chất lượng Bởi vì chất lượng có thể ảnh hưởng mộtloạt các sự kiện trong vòng đời, chất lượng phải được lên kế hoạch như là một phầncủa vòng đời dữ liệu

+Siêu dữ liệu cần phải được quản lý thông qua vòng đời dữ liệu: Bởi vì Siêu

dữ liệu là một dạng của dữ liệu, và bởi vì tổ chức dựa vào siêu dữ liệu để quản lý dữliệu khác Chất lượng siêu dữ liệu phải được quản lý theo cách giống với chất lượngcủa những dữ liệu

+Bảo mật dữ liệu phải được quản lý thông qua vòng đời dữ liệu: Quản lý dữ

liệu cũng bao gồm đảm bảo rằng dữ liệu là bảo mật và các rủi ro đến dữ liệu đượcgiảm thiểu Dữ liệu cần phải được bảo vệ trong suốt vòng đời của nó, từ khi tạo racho đến khi xử lý Các tổ chức tạo ra rất nhiều dữ liệu, một lượng lớn trong số đókhông được sử dụng Cố gắng quản lý từng phần dữ liệu là điều không thể Quản lývòng đời yêu cầu tập trung vào dữ liệu quan trọng nhất, tối thiểu hóa dư thừa dữliệu, dữ liệu lỗi thời hay dữ liệu không có giá trị

- Thách thức quản lý các loại dữ liệu khác nhau

Ngày nay, quản lý dữ liệu rất phức tạp vì các loại dữ liệu khác nhau sẽ yêu cầucác vòng đời dữ liệu khác nhau Cần phân loại được những đối tượng quản lý ở đây

là gì trong bất kỳ hệ thống quản lý dữ liệu nào Dữ liệu được phân theo loại, ví dụ:

dữ liệu về giao dịch, dữ liệu tham chiếu (có lưu địa chỉ để tham chiếu đến nơi lưutrữ), dữ liệu chủ, siêu dữ liệu, thay thế cho dữ liệu theo hạng mục, dữ liệu nguồn, dữliệu sự kiện, dữ liệu giao dịch chi tiết Hoặc dữ liệu có thể phân loại theo nội dung,theo định dạng, theo lĩnh vực, hoặc theo cấp độ bảo vệ dữ liệu yêu cầu Dữ liệucũng có thể được phân loại bằng việc dữ liệu được lưu trữ hay truy cập như thế nàohoặc ở đâu

Bởi vì các loại dữ liệu khác nhau sẽ có các cách thức quản lý khác nhau, đóngvai trò khác nhau trong phạm vi tổ chức Nhiều công cụ quản lý dữ liệu tập vào cáckhía cạnh của việc phân loại và điều khiển dữ liệu Ví dụ, dữ liệu chủ có các cách

sử dụng khác nhau và do đó cũng yêu cầu quản lý khác với dữ liệu giao dịch

Trang 22

- Thách thức trong quản lý rủi ro từ dữ liệu

Dữ liệu không chỉ mang đến gía trị, dữ liệu cũng mang đến những rủi ro đikèm Dữ liệu chất lượng thấp (không chính xác, không toàn vẹn, lỗi thời) chắc chắnchứa đựng rủi ro vì thông tin chứa trong dữ liệu không đúng Dữ liệu bị hiểu saihoặc sử dụng sai mục đích sẽ tiềm ẩn gây ra các rủi ro Các tổ chức đạt được giá trịtốt nhất từ nguồn dữ liệu chất lượng cao (sẵn sàng, thích hợp, hoàn thiện, chính xác,hợp thời, hữu dụng, ý nghĩa, và dễ hiểu) Song, hầu hết các quyết định quan trọng,chúng ta có những lỗ hổng thông tin - đó là sự khác nhau giữa những gì chúng tabiết và những gì chúng ta cần biết để đưa ra một quyết định hiệu quả Những lỗhổng thông tin thể hiện trách nhiệm của doanh nghiệp với các tác động tiềm tàng,ảnh hưởng sâu sắc tới hoạt động điều hành doanh nghiệp và tạo lợi nhuận Các tổchức nhận ra giá trị của nguồn dữ liệu chất lượng cao có thể thực hiện các bước cụthể và chủ động để từng bước

Vai trò ngày càng tăng của thông tin (được coi như tài sản của tổ chức) trên tất

cả các lĩnh vực đã dẫn đến việc tập trung gia tăng của các nhà lập pháp và nhà quản

lý trong việc quy định sử dụng tiềm năng và lạm dụng thông tin

Tương tự như vậy, khi nhiều người nhận thức về cách họ sử dụng dữ liệu, họ

hi vọng không chỉ vận hành các quy trình trơn tru và hiệu quả, mà còn bảo vệ đượcthông tin và quyền riêng tư của họ

- Quản lý dữ liệu hiệu quả yêu cầu năng lực lãnh đạo

Hầu hết các tổ chức nhận ra rằng tài sản là dữ liệu là tài sản, nhưng còn quá xa

để có thể điều khiển dữ liệu (data- driven) Rất nhiều tổ chức không biết họ cónhững

dữ liệu gì hay những dữ liệu quan trọng có ý nghĩa như thế nào đến kinh doanh Họnhầm lẫn việc quản lý dữ liệu và công nghệ thông tin Dữ liệu được tiếp cận mộtcách

không có chiến lược Và họ không coi trọng công việc liên quan đến quản lý dữ liệu.Những điều kiện bổ sung them các thách thức trong quản lý dữ liệu và một yếu tốquan trọng được chỉ ra cho sự thành công tiềm năng của tổ chức: committedleadership và sự tham gia của tất cả mọi người ở tất cả các cấp của tổ chức

Các thách thức ở đây quản lý dữ liệu không phải là công việc dễ dàng hay đơn

Trang 23

được Để quản lý dữ liệu tốt hơn, đòi hỏi tầm nhìn, lên kế hoạch và sẵn sàng thay đổi

- Chiến lược quản lý dữ liệu

Định nghĩa chiến lược là một tập các lựa chọn và các quyết định để tạo ra các

kế hoạch hành động để đạt được các mục tiêu cấp cao Một kế hoạch chiến lược làmột quá trình hành động cấp cao

Một chiến lược về dữ liệu thì nên bao gồm các kế hoạch kinh doanh để sửdụng thông tin tạo ra lợi thế cạnh tranh, giúp doanh nghiệp đạt mục tiêu Chiến lược

dữ liệu phải đến từ sự hiểu biết nhu cầu dữ liệu mà các nhu cầu đó thì phải xuất phát

từ chiến lược kinh doanh Tổ chức cần những loại dữ liệu gì, dữ liệu sẽ được lấynhư thế nào, dữ liệu sẽ được quản lý ra sao, và đảm bảo rằng nó tin cậy theo thờigian, và nó sẽ được sử dụng như thế nào Điển hình như, một chiến lược dữ liệu yêucầu một chiến lược chương trình hỗ trợ quản lý dữ liệu- một chiến lược bảo trì vàcải thiện chất lượng dữ liệu, tích hợp, truy cập, bảo mật và đảm bảo được việc giảmthiểu rủi ro và các mối nguy hại tiềm ẩn Chiến lược cũng phải giải quyết được cácthách thức liên quan đến quản lý dữ liệu

1.1 Lý thuyết về khung quản lý dữ liệu

Quản lý dữ liệu bao gồm một tập các chức năng liên kết với nhau, từng chứcnăng bao gồm các mục tiêu, hoạt động, và trách nhiệm Các chuyên gia quản lý dữ liệucần tính toán đến các thách thức ẩn đi trong dữ liệu trong khi vẫn phải cân bằng cácmục tiêu chiến lược và mục tiêu điều hành, các yêu cầu kinh doanh và kỹ thuật cụ thể,các yêu cầu tuân thủ quy định để giảm thiểu rủi ro Sự hiểu biết mâu thuẫn về những gì

dữ liệu đại diện và nghi ngờ rằng liệu nó có đạt chất lượng cao hay không? Có rấtnhiều cách để theo dõi điều này, đó là lý do tại sao hình thành một khung quản lý dữliệu toàn diện, và nhìn thấy được mối quan hệ giữa các thành phần trong khung đó Bởi

vì các chức năng phụ thuộc vào nhau, và cần được cân bằng, ở trong bất kỳ tổ chứcnào, những người - mà có trách nhiệm với các khía cạnh/ chức năng quản lý khác nhaucủa quản lý dữ liệu cần phải cộng tác với nhau để khai thác triệt để giá trị từ dữ liệu

Các khung được phát triển ở các mức độ trừu tượng khác nhau cung cấp mộtloạt các quan điểm về tiếp cận quản lý dữ liệu Các quan điểm này cung cấp cáinhìn sâu sắc mà thường làm rõ chiến lược, phát triển lộ trình, tổ chức team và cânbằng các chức năng

Khoá luận tốt nghiệp

Trang 24

Cách tiếp cận của tổ chức trong việc quản lý dữ liệu phụ thuộc vào các nhân tốquan trọng, ví dụ như: lĩnh vực của tổ chức là gì, phạm vi sử dụng dữ liệu, văn hóa

sử dụng dữ liệu, chiến lược, tầm nhìn và các thách thức cụ thể đang được giải quyết

Có 3 loại khung quản lý dữ liệu phổ biến trên thế giới là:

+Mô hình liên kết chiến lược (Strategic Alignment Model)

+Mô hình thông tin Amsterdam

+Khung DAMA DMBOK: Mô tả các chức năng trong quản lý dữ liệu Có ba

mô hình mô tả khung quản lý dữ liệu DAMA, tuy nhiên trong phạm vi bài khóaluận này chỉ đề cập đến DAMA Wheel (bánh xe quản lý dữ liệu)

- Mô hình liên kết chiến lược (Strategic Alignment Model)

Hình 2: Mô hình liên kết chiến lược

Mô hình liên kết chiến lược được sáng tạo bởi Henderson và Venkatraman vàonăm 1999 mô tả các nhân tố cơ bản quyết định đến thành công cho bất kỳ cách tiếpcận liên quan đến quản lý dữ liệu

Trung tâm của mô hình là mối quan hệ giữa dữ liệu và thông tin Thông tinchính là cầu nối liên kết giữa các chiến lược kinh doanh và hoạt động sử dụng dữliệu Dữ liệu được liên kết với công nghệ thông tin và các quy trình Đó là các quytrình hỗ trợ các quản lý vật lý của hệ thống, cho phép có thể truy cập dữ liệu để sửdụng Xoay xung quanh khái niệm này là bốn lĩnh vực cơ bản của việc xây dựng

Trang 25

Khoá luận tốt nghiệp

chiến lược: chiến lược kinh doanh (Business Strategy), chiến lược công nghệ thôngtin (Information Technology Strategy), cơ sở hạ tầng tổ chức và các quy trình(Organizational Infrastructure and Processes), hạ tầng công nghệ thông tin và cácquy trình (Information Technology Infrastructure and Processes)

Mô hình liên kết chiến lược đầy đủ sẽ phức tạp hơn mô hình được nêu trên.Mỗi một góc của hình lục giác đều có những chiều, yếu tố của riêng nó Lấy ví dụ

để hiểu rõ hơn Để thiết lập chiến lược kinh doanh thì có 6 yếu tố quyết định tươngđương với 6 cạnh của hình lục giác, điều đó có nghĩa là khi tổ chức đưa ra chiếnlược kinh doanh cần phải tính toán đến các yếu tố như phạm vi kinh doanh, nănglực hiện tại, các kỹ năng cần có, hay thông tin có được từ việc khai thác dữ liệu.Theo mô hình trên, mối quan hệ giữa các thành phần sẽ giúp một tổ chức hiểu đượclàm thế nào đưa ra một chiến lược phù hợp với các yếu tố khác nhau, đồng thờicũng hiểu được chức năng tích hợp của các chức năng Thậm chí, mô tả ở mức độcao hơn của mô hình lại hữu ích trong việc hiểu rõ các nhân tố trong tổ chức mà ảnhhưởng đến các quyết định liên quan đến dữ liệu và quản lý dữ liệu

- Mô hình thông tin Amsterdam (The Amsterdam Information Model)

Hình 3: Mô hình thông tin Amsterdam

Trang 26

Mô hình thông tin Amsterdam, giống như mô hình liên kết chiến lược, đưa ramột quan điểm chiến lược mối liên kết giữa kinh doanh và IT Trục dọc của môhình mô tả 3 cấp độ của quản trị là: điều hành (Operations)- gồm: các quy trình và

kỹ năng, chiến thuật (Tactics)- gồm kiến trúc và năng lực, chiến lược gồm phạm vi, năng lực cốt lõi và quản trị Trục ngang của mô hình là 2 lĩnh vực cầnquản trị: Kinh doanh (Business) và Công nghệ thông tin (IT) Mô hình có 9 ô tròn,

(Strategy)-là các chức năng được sắp xếp phù hợp với từng cấp độ quản trị và lĩnh vực Tầng ởgiữa tập trung vào cấu và trúc và chiến thuật, bao gồm lên kế hoạch và kiến trúc.Ngoài ra, có thể nhìn thấy được sự cần thiết của truyền thông thông tin

Mô hình mô tả chi tiết mối quan hệ giữa các thành phần, cụ thể theo chiềungang là các chiến lược kinh doanh và công nghệ thông tin, hay theo chiều dọc, đó

là mối quan hệ giữa chiến lược kinh doanh và điều hành kinh doanh

1.5.1 Khung quản lý dữ liệu DAMA

Đây là khung quản lý dữ liệu hiện đại, được tham khảo trong quyển TheDAMA Guide to the Data Management Body of Knowledge phiên bản thứ 2 vàđược xuất bản vào năm 2017 bởi tổ chức Data Management Association

Ngày nay, thế giới đang chuyển mình với sự phát triển nền công nghiệp 4.0,cùng với đó là sự bùng nổ về dữ liệu lớn (Big data), trí tuệ nhân tạo, thực tế ảo,block- chain Đi kèm đó chính là việc quản lý dữ liệu ở các tổ chức ngày nay tạo rarất nhiều thách thức, cùng với những cơ hội kinh doanh Không phải vì bây giờ dữliệu lớn bùng nổ mà các tổ chức mới nhận thấy tầm quan trọng của dữ liệu Ngay từđầu những năm 1980, có nhiều tổ chức đã nhận ra rằng dữ liệu là điểm cốt lõi trongthành công của họ Khi nhu cầu và mong muốn khai thác giá trị từ dữ liệu ngàycàng tăng đối với sự sinh tồn và phát triển của tổ chức, thì cần thiết có những tiêuchuẩn, cách thức, cụ thể hơn là một khung để quản lý dữ liệu Với sứ mệnh, vai tròcủa mình, cộng đồng quản lý dữ liệu toàn cầu (The Global Data MangementCommunity) đưa ra mô hình DAMA Wheel - khung quản lý dữ liệu với quản trị dữliệu (Data Governance) làm trọng tâm, là “trái tim” của quản lý dữ liệu Khungquản lý dữ liệu (DAMA framework) được viết trong cuốn sách The DAMA Guide

to the Data Management Body of Knowlegde

Trang 27

Khoá luận tốt nghiệp

Hình 4: Data Management Wheel

Bánh xe DAMA định nghĩa các khía cạnh kiến thức của quản lý dữ liệu Quảntrị dữ liệu là trọng tâm của hoạt động quản lý dữ liệu, vì quản trị dữ liệu yêu cầu sựthống nhất bên trong và cân bằng giữa các chức năng Những khía cạnh chức năngkhác như kiến trúc dữ liệu, mô hình hóa dữ liệu, được cân bằng xung quanh bánh

xe Đây đều là những thành phần cần thiết cho một quản lý dữ liệu trưởng thành.Các thành phần này có thể được thực hiện vào các thời điểm khác nhau, phụ thuộcvào các yêu cầu của tổ chức

1.5.2 Các chức năng trong quản lý dữ liệu

a Quản trị dữ liệu

Quản trị dữ liệu được định nghĩa như là việc thực hiện và kiểm soát các côngviệc như lên kế hoạch, triển khai, giám sát toàn bộ các quy trình, hoạt động có trongquản lý dữ liệu, kiểm soát hệ thống quản lý dữ liệu Hiện nay, hầu như tất cả các tổchức đưa ra các quyết định dựa vào dữ liệu mặc dù họ chưa có một chiến lược quảntrị dữ liệu rõ ràng Các tổ chức ngày càng nâng cao được khả năng nâng cao đượcgiá trị từ việc khai khác từ dữ liệu của họ Quản trị dữ liệu là “kim chỉ nam” địnhhướng cho tất cả các thành phần khác trong DAMA Wheel Mục đích của quản trị

dữ liệu là đảm bảo rằng dữ liệu được quản lý đúng cách, tuân theo quy định và bestpractices Trong khi mục tiêu tổng thể của quản lý dữ liệu là đảm bảo một tổ chức

Trang 28

đạt được giá trị từ dữ liệu, thì quản trị dữ liệu tập trung vào việc làm thế nào đưa racác quyết định dựa vào dữ liệu hay làm thế nào để con người hay quy trình trong tổchức được mong đợi sẽ có hành vi liên quan đến dữ liệu Các khía cạnh cần tậptrung vào một kế hoạch quản trị dữ liệu cụ thể sẽ phụ thuộc vào các nhu cầu tổchức, nhưng thông thường thì hầu hết các kế hoạch bao gồm các thành phần vànguyên tắc sau:

- Chiến lược (Strategy): Định nghĩa, cách thức thực thi chiến lược quản trị dữliệu

- Quy định, chính sách (Policy): Thiết lập, và các quy định liên quan đến quản

lý dữ liệu và siêu dữ liệu, truy cập, sử dụng, bảo mật và chất lượng dữ liệu

- Tiêu chuẩn và chất lượng: thiết lập và áp dụng các tiêu chuẩn chất lượng dữliệu và kiến trúc dữ liệu

- Giám sát: cung cấp sự quan sát cần thiết và kiểm soát

- Tuân thủ: đảm bảo rằng tổ chức có thể đáp ứng được các yêu cầu tuân thủ vềquản trị dữ liệu

- Quản lý vấn đề: nhận diện, định nghĩa, đo lường, giải quyết các vấn đề liênquan đến bảo mật dữ liệu, truy cập dữ liệu, chất lượng dữ liệu, sự tuân thủ các quyđịnh, sở hữu dữ liệu, các quy định, tiêu chuẩn, các thuật ngữ liên quan, các thủ tụcquản trị dữ liệu

- Các dự án quản lý dữ liệu: các nỗ lực hỗ trợ để cải thiện các công việc quản

Khả năng tạo ra và chia sẻ dữ liệu, thông tin đã thay đổi các tương tác cánhân và nền kinh tế Với sự thay đổi nhanh chóng của thị trường cạnh tranh vànhận thức ngày càng cao về giá trị mà dữ liệu mang lại, đã khiến cho các tổ chức

Trang 29

Khoá luận tốt nghiệp

cần sắp xếp, cân bằng lại các trách nhiệm trong quản lý dữ liệu Có thể thấy rằng,

sự thay đổi rõ nhất ở trong các lĩnh vực tài chính, thương mại, chính phủ và quản

lý bán lẻ Ngày nay, các tổ chức nỗ lực ngày càng tăng để điều khiển dữ liệu- chủđộng xem xét các yêu cầu dữ liệu như một phần của sự phát triển chiến lược, lên

kế hoạch, triển khai công nghệ Tuy nhiên, nếu làm như thế thì thường kéo theonhững thách thức văn hóa quan trọng Thêm nữa, vì văn hóa doanh nghiệp có thểchống lại bất kỳ chiến lược nào, những nỗ lực quản trị dữ liệu cần bao gồm thànhphần thay đổi văn hóa, và được hỗ trợ mạnh mẽ bởi các lãnh đạo Để thu được lợiích từ dữ liệu, văn hóa tổ chức phải bắt nguồn từ dữ liệu và các hoạt động quản lý

dữ liệu Thậm chí, với những chiến lược dữ liệu tốt nhất, kế hoạch quản trị dữ liệu

và quản lý dữ liệu sẽ không thể thành công nếu như tổ chức không chấp nhận vàquản lý sự thay đổi Đối với nhiều tổ chức, thay đổi văn hóa là một thách thức lớn.Một trong những nguyên tắc cơ bản của quản lý sự thay đổi đó là tổ chức cần yêucầu sự thay đổi từ các cá nhân

b Chất lượng dữ liệu

Quản lý dữ liệu hiệu quả bao gồm một tập các quy trình phức tạp và liên quanđến nhau mà cho phép tổ chức sử dụng dữ liệu để đạt được các mục tiêu chiến lược.Quản lý dữ liệu bao gồm các khả năng để thiết kế dữ liệu cho các ứng dụng, lưu trữ

và truy cập dữ liệu an toàn, chia sẻ dữ liệu an toàn và đảm bảo rằng dữ liệu phù hợpvới yêu cầu kinh doanh Một cụm từ khẳng định giá trị của dữ liệu đáng tin cậy haynói cách khác đó là dữ liệu chất lượng cao Trên thực tế, có rất nhiều yếu tố gây ra

dữ liệu chất lượng kém, như: thiếu hiểu biết về sự ảnh hưởng của chất lượng dữ liệuthấp lên sự thành công của tổ chức, hay một kết hoạch quản lý dữ liệu tồi, thiết kế

hệ thống không có khả năng mở rộng, các quy trình phát triển không đồng nhất, tàiliệu không hoàn thiện, thiếu tiêu chuẩn, thiếu sự quản trị Rất nhiều tổ chức thất bại

để xác định yếu tố gì làm cho dữ liệu phù hợp với mục đích

Tất cả các nguyên tắc quản lý dữ liệu đóng góp vào chất lượng dữ liệu, và chấtlượng dữ liệu cao hỗ trợ cho tổ chức nên là mục tiêu của tất cả các nguyên tắc quản

lý dữ liệu Bởi vì những quyết định hoặc hành động thiếu hiểu biết của bất kỳ ai khitương tác dữ liệu có thể dẫn đến dữ liệu kém chất lượng, sản xuất dữ liệu chất lượngcao đòi hỏi sự cam kết và phối hợp chéo Các tổ chức và các phòng ban nên chú ý

Trang 30

đến điểm này và cần phải lên kế hoạch để có được dữ liệu chất lượng cao, bằngcách thực hiện các quy trình và dự án theo cách mà chúng ta có thể tính toán đượcrủi ro liên quan đến những điều kiện bất ngờ hoặc không mong đợi trong dữ liệu.Bởi vì không một tổ chức nào có quy trình có quy trình kinh doanh hoàn hảo,quy trình kỹ thuật hoàn hảo, vận hành quy trình hoàn hảo, nên bất kỳ tổ chức nàocũng ít nhiều gặp vấn đề liên quan đến chất lượng dữ liệu của họ Những tổ chứcquản lý dữ liệu chất lượng cao thường gặp vấn đề ít hơn so với những tổ chức màđang quản lý dữ liệu kém Quản lý chất lượng dữ liệu tiêu chuẩn cũng tương tựquản lý chất lượng liên tục của các sản phẩm, mặt hàng trong lĩnh vực sản xuất kinhdoanh Nó bao gồm quản lý dữ liệu thông qua vòng đời bằng cách thiết lập tiêuchuẩn, xây dựng chất lượng vào các quy trình, bằng cách tạo, chuyển đổi, lưu trữ dữliệu và đo lường theo các tiêu chuẩn đã thiết lập Quản lý dữ liệu yêu cầu nhómnhững người có nhiệm vụ xây dựng chương trình quản lý dữ liệu Những người này

có trách nhiệm đảm bảo quản lý dữ liệu đáp ứng cả về yêu cầu kỹ thuật và kinhdoanh, điều phối việc ứng dụng các kỹ thuật quản lý chất lượng dữ liệu với mụcđích là đảm bảo dữ liệu khi được sử dụng có thể đáp ứng được đa mục đích Nhóm

có thể tham gia vào một loạt các dự án mà thông qua đó họ có thể thiết lập các quytrình và thông lệ tốt nhất (best practices) hay được hiểu là những cách làm tốt nhất,đúng đắn nhất, mang lại hiệu quả cao nhất trong lúc họ giải quyết các vấn đề, côngviệc về dữ liệu

Tại sao lại cần thiết xây dựng một chương trình quản lý chất lượng dữ liệu tiêuchuẩn? Dưới đây là các lợi ích đồng thời khi cũng là những tiêu chuần khi xây dựngchương trình chất lượng dữ liệu:

- Gia tăng giá trị dữ liệu của tổ chức Nhờ đó, tổ chức sẽ đạt được các mục tiêutrong kinh doanh, đạt được lợi thế cạnh tranh so với đối thủ

- Giảm các rủi ro và chi phí mà dữ liệu chất lượng thấp gây nên

- Cải thiện hiệu quả và năng suất tổ chức

- Bảo vệ và nâng cao danh tiếng của tổ chức

Những tổ chức mong muốn khai thác giá trị từ dữ liệu đều nhận ra rằng dữ liệuchất lượng cao sẽ mang lại rất nhiều giá trị Nếu chất lượng dữ liệu của tổ chức thấpthì đồng nghĩa với rủi ro cao, có thể gây một số hệ lụy không nhỏ, ví dụ như: phá

Trang 31

Khoá luận tốt nghiệp

hủy danh tiếng của tổ chức, thất thoát doanh thu, đánh mất khách hàng, truyềnthông tiêu cực Ngoài ra, có thể nhìn thấy rõ nhất các chi phí trực tiếp mà dữ liệuchất lượng thấp gây nên:

- Thất thoát doanh thu dẫn đến bỏ lỡ các cơ hội trong kinh doanh

- Cản trở sự hợp nhất trong quá trình sát nhập và mua lại

- Gia tăng gian lận

- Dữ liệu chất lượng kém dẫn đến các quyết định kinh doanh sai sót

- Mất cơ hội kinh doanh, tín dụng cao

Khi dữ liệu đạt chất lượng cao thì nó không phải là công việc cuối cùng hay là

sự kết thúc Dữ liệu chất lượng cao là một phương tiện để tổ chức thành công Dữliệu đáng tin cậy không chỉ giảm thiểu rủi ro và giảm chi phí, mà còn cải thiện hiệuquả Những người sử dụng dữ liệu có thể trả lời các câu hỏi nhanh hơn và chính xáchơn khi họ làm việc với dữ liệu đáng tin cậy không Họ dành ít thời gian hơn để tìmlỗi nếu dữ liệu không đúng, và dành nhiều thời gian để khai thác giá trị từ dữ liệu,đưa ra các quyết định và phục vụ khách hàng của mình

Các kế hoạch quản lý dữ liệu tập trung vào những mục tiêu sau:

- Phát triển một cách tiế cận quản trị để tạo dữ liệu phù hợp với mục đích dựavào các yêu cầu của dữ liệu

- Định nghĩa các tiêu chuẩn và đặc điểm cụ thể cho các kiểm soát chất lượng

dữ liệu như là một phần của vòng đời dữ liệu

- Định nghĩa và triển khai các quy trình để đo lường, giám sát, báo cáo về cácmức chất lượng dữ liệu

- Xác định và chủ trương các cơ hội để cải thiện chất lượng dữ liệu, thông quathay đổi các quy trình và thay đổi hệ thống, tham gia vào các hoạt động cải thiệnđáng kể chất lượng dữ liệu dựa trên yêu cầu của người sử dụng dữ liệu

Vào năm 2013, DAMA UK hay còn được gọi là cộng đồng quản lý dữ liệuAnh (Data management United Kingdom), nơi nuôi dưỡng cộng đồng các chuyêngia dữ liệu ở Anh - người sẽ bảo vệ giá trị của dữ liệu Tổ chức này đã xuất bản bài

báo mang tên The Six Primary Dimensions For Data Quality Assessment, trong đó

nêu ra 6 tiêu chí để đo lường chất lượng dữ liệu

- Accuracy (Tính chính xác): Dữ liệu đại diện chính xác giá trị của thế giới

Trang 32

Ví dụ: tên người, số lượng sản phẩm phải đúng

- Validity (tính hợp lệ/xác thực): dữ liệu phù hợp với cú pháp theo định nghĩaban đầu (định dạng, loại, phạm vi phù hợp) Ví dụ: giới tính Nam/ Nữ được quyđịnh mã hóa thành F/M, nhưng trong dữ liệu lại xuất hiện 9,10 thì dữ liệu đó khônghợp lệ ví dụ 2: tuổi âm÷ không hợp lệ Ngày sinh phải từ 1900- hiện tạ^ tínhhợp lệ

- Timeliness (tính kịp thời): Dữ liệu đại diện cho thực tế tại thời điểm yêu cầu

dữ liệu Tức là dữ liệu cung cấp càng real-time thì tính kịp thời càng được đảm bảo

ví dụ: địa chỉ của khác hàng được thay đổi vào ngày 1/5, thì hệ thống cũng đảm bảocập nhật vào ngày 1/5 thì khi đó bản ghi dữ liệu chứa thông tin khách hàng đó sẽđảm bảo được tính kịp thời

- Completeness (tính toàn vẹn/ đầy đủ): dữ liệu được thu thập đầy đủ, tức là

mỗi bản ghi của dữ liệu thì đều không bị thiếu, hay còn gọi là missing value

Ví dụ: Một bản ghi bị thiếu địa chỉ của khách hàng thì dữ liệu đó không cótính toàn vẹn

- Uniqueness (Tính duy nhất): Dữ liệu được xác định và được ghi lại một lần

duy nhất theo một bản ghi với một mã duy nhất, nghĩa là không có sự trùng lặp củabất kỳ một bản ghi nào Các bản ghi dữ liệu là riêng biệt, được phân biệt theo mộtkhóa chính duy nhất Ví dụ, trong bảng dữ liệu khác hàng chỉ có duy nhất một bảnghi của khách hàng A

- Consistency (Tính nhất quán): Một đối tượng được lưu trữ nhất quán trong

các tập dữ liệu khác nhau Ví dụ cùng một khách hàng A, thì thông tin của họ phảiđược lưu nhất quán trong các bảng khác nhau của cơ sở dữ liệu

Trang 33

Khoá luận tốt nghiệp

COMPLETENESS

VALIDITY

Hình 5: Tiêu chuẩn đo lường chất lượng dữ liệu

Siêu dữ liệu rất quan trọng trong việc quản lý chất lượng dữ liệu Chất lượng

dữ liệu dựa vào việc làm thế nào để dữ liệu đáp ứng tốt yêu cầu của người dùng dữliệu Siêu dữ liệu định nghĩa dữ liệu đại diện cho cái gì Có một quy trình mạnh mẽ

mà theo đó dữ liệu được xác định hỗ trợ khả năng của tổ chức để tài liệu hóa cáctiêu chuẩn và các yêu cầu mà từ đó chất lượng mà từ đó chất lượng dữ liệu có thể

đo lường được

Siêu dữ liệu quản lý dữ liệu tốt có thể hỗ trợ các nỗi lực trong việc cải thiệnchất lượng dữ liệu Kho lưu trữ siêu dữ liệu có thể chứa kết quả đo lường chất lượngsiêu dữ liệu vì thế mà siêu dữ liệu thường được chia sẻ trong toàn tổ chức

c Siêu dữ liệu

Định nghĩa thông thường nhất của siêu dữ liệu là “dữ liệu của dữ liệu” Siêu

dữ liệu bao gồm thông tin về các quy trình kĩ thuật công nghệ và kinh doanh, cácluật và các ràng buộc về dữ liệu, mô tả cấu trúc dữ liệu vật lý và logic Siêu dữ liệu

mô tả dữ liệu (ví dụ: cơ sở dữ liệu, các thành phần dữ liệu, mô hình dữ liệu) Các

Trang 34

định nghĩa dữ liệu (các quy trình kinh doanh, hệ thống ứng dụng, hạ tầng côngnghệ), các kết nối (mối quan hệ) giữa dữ liệu và khái niệm Siêu dữ liệu giúp một tổchức hiểu dữ liệu của họ, hệ thống của họ, và luồng công việc Siêu dữ liệu chophép đánh giá chất lượng dữ liệu và là thành phần không thể thiếu để quản lý cơ sở

dữ liệu và các ứng dụng khác Siêu dữ liệu góp phần vào khả năng xử lý, bảo trì,tích hợp, bảo mật, kiểm tra, quản trị dữ liệu khác

Để thấu hiểu vai trò quan trọng của siêu dữ liệu trong quản lý dữ liệu, chúng tathử đi so sánh siêu dữ liệu giống như một thư viện với hàng trăm quyển sách và tạpchí và thư viện đó không có danh mục thẻ Không có danh mục thẻ, người đọc cóthể thậm chí không biết được làm thế nào để bắt đầu tìm kiếm một quyển sách cụthể hoặc thậm chí một chủ đề cụ thể Thẻ danh mục không chỉ cung cấp các thôngtin cần thiết, cụ thể thư viện sở hữu những quyển sách và tài liệu nào, hay nhữngquyển sách được để ở đâu trên kệ Những chiếc thẻ danh mục cũng cho phép tìm tàiliệu bằng các cách khác nhau: chủ đề, tác giả, tiêu đề Không có thẻ danh mục, việctìm kiếm một cuốn sách cụ thể sẽ trở nên khó khăn, thậm chí là không thể Một tổchức mà không có siêu dữ liệu giống như một thư viện không có thẻ danh mục.Siêu dữ liệu có vai trò quan trọng thiết yếu cho việc quản lý dữ liệu cũng như

sự sử dụng dữ liệu Tất cả các tổ chức lớn thường sản xuất tạo ra dữ liệu và sử dụngrất nhiều dữ liệu thì việc quản lý siêu dữ liệu cực kỳ quan trọng Xuyên xuất một tổchức, các cá nhân khác nhau sẽ có các mức độ hiểu biết về dữ liệu khác nhau,nhưng không một cá nhân nào sẽ biết mọi thứ về dữ liệu Những thông tin về siêu

dữ liệu cần phải được ghi lại Siêu dữ liệu cung cấp ý nghĩa sơ cấp cơ bản để nắmbắt và quản lý kiến thức về dữ liệu của tổ chức Tuy nhiên, quản lý siêu dữ liệukhông chỉ là thách thức quản lý kiến thức, mà còn cần thiết quản lý rủi ro Siêu dữliệu cần thiết để đảm bảo một tổ chức có thể xác định được những dữ liệu nhạy cảm

và riêng tư và siêu dữ liệu cũng được dùng để quản lý vòng đời dữ liệu để đảm bảolợi ích của tổ chức, đáp ứng các yêu cầu phức tạp và giảm thiểu rủi ro

Nếu không có dữ liệu đáng tin cậy, thì một tổ chức không biết họ đang có dữliệu gì, dữ liệu đang đại diện, mô tả điều gì, dữ liệu được tạo ra ở đâu, dữ liệu được

di chuyển qua các hệ thống như thế nào, Ai được phép truy cập nó, hay dữ liệu chấtlượng cao thì có ý nghĩa gì Không có siêu dữ liệu, một tổ chức không thể quản lý

Trang 35

Khoá luận tốt nghiệp

dữ liệu như một tài sản Sự thật là, không có siêu dữ liệu, một tổ chức không đủ khảnăng để quản lý được toàn bộ dữ liệu của mình

Cũng giống như dữ liệu khác, siêu dữ liệu cần được quản lý Bởi vì khả năngthu thập và lưu trữ dữ liệu của tổ chức ngày càng tăng nên vai trò của siêu dữ liệutrong quản lý dữ liệu ngày càng trở nên quan trọng Để điều khiển được dữ liệu,một tổ chức phải điều khiển được siêu dữ liệu

Tổ chức không thể quản lý được nếu thiếu siêu dữ liệu và chính siêu dữ liệucũng cần được quản lý Vậy tại sao siêu dữ liệu lại quan trọng đến vậy, siêu dữ liệuđáng tin cậy sẽ tạo ra những ưu điểm và lợi thế như:

- Gia tăng độ tin cậy của dữ liệu bằng cách cung cấp các mô tả và cho phép đolường chất lượng dữ liệu

- Nâng cao hiệu quả hoạt động bằng cách xác định quy trình và dữ liệu dưthừa

- Ngăn chặn việc sử dụng dữ liệu lỗi thời hoặc dữ liệu sai

- Giảm thời gian nghiên cứu nghiên cứu định hướng dữ liệu

- Cải thiện giao tiếp giữa người dùng và các chuyên gia công nghệ thông tin

- Tạo ra các phân tích chính xác do đó giảm rủi ro trong các dự án phân tích

dữ liệu và đưa ra các quyết định

- Hỗ trợ việc tuân thủ các luật lệ

- Mục đích của quản lý siêu dữ liệu

Quản lý siêu dữ liệu bao gồm các hoạt động lên kế hoạch, triển khai và kiểmsoát để cho phép siêu dữ liệu được tích hợp và đạt chất lượng cao

Mục đích của quản lý siêu dữ liệu:

+ Quản lý tài liệu và các kiến thức liên quan đến dữ liệu kinh doanh mộtcách có tổ chức để đảm bảo các bộ phận trong tổ chức để đảm bảo mọi người hiểunội dung của dữ liệu và có thể sử dụng dữ liệu một cách nhất quán

+ Thu thập và tích hợp siêu dữ liệu từ nhiều nguồn đa dạng khác nhau đểđảm bảo mọi người hiểu được sự tương đồng và sự khác biệt giữa những loại dữliệu khác nhau từ các bộ phận khác nhau của tổ chức

+ Đảm bảo siêu dữ liệu đạt chất lượng, nhất quán, phổ biến và bảo mật+ Cung cấp phương pháp tiêu chuẩn để truy cập siêu dữ liệu

Trang 36

+ Thiết lập hoặc thực thi việc sử dụng các tiêu chuẩn siêu dữ liệu kỹ thuật

để cho phép trao đổi dữ liệu

- Các loại siêu dữ liệu

Siêu dữ liệu thông thường được chia làm 3 loại: siêu dữ liệu mô tả, siêu dữliệu cấu trúc, và siêu dữ liệu quản trị

+ Siêu dữ liệu mô tả: mô tả thêm thông tin về ai đã tạo ra tài nguyên, vàquan trọng nhất- tài nguyên đó là về cái gì, gồm những gì Điều này được áp dụngtốt nhất bằng việc sử dụng chú giải ngữ nghĩa

Ví dụ: chủ đề, tên tác giả của một quyển sách

+ Siêu dữ liệu cấu trúc: gồm các dữ liệu bổ sung về cách thức các yếu tố dữliệu được tổ chức - các mối quan hệ của chúng và cấu trúc mà chúng đang tồn tạitrong đó

Ví dụ: số trang, số chương, mục lục của 1 quyển sách

+ Siêu dữ liệu quản trị: cung cấp các thông tin về gốc gác của tài nguyên,dạng tài nguyên và các quyền truy cập tài nguyên

Ví dụ: số phiên bản, ngày lưu trữ

d Dữ liệu chủ và dữ liệu tham chiếu

là tập hợp giới tính gồm Nam và Nữ,

+ Tại sao cần phải quản lý dữ liệu chủ (Mục tiêu quản lý dữ liệu chủ)?

+Đảm bảo dữ liệu chủ, dữ liệu tham chiếu trong các quy trình của tổ chứcđược toàn vẹn, nhất quán, mang tính hiện hành và có thẩm quyền

+ Cho phép dữ liệu chủ và dữ liệu tham chiếu được chia sẻ trên các chức năng

và ứng dụng trong doanh nghiệp

Trang 37

Quê quán Hà Nội

Giới tính Nam

Khoá luận tốt nghiệp

+ Giảm chi phí và giảm độ phức tạp của việc sử dụng dữ liệu và tích hợp thôngqua việc áp dụng các tiêu chuẩn, mô hình dữ liệu chung, mô hình tích hợp

+Dữ liệu chủ và dữ liệu tham chiếu được quản lý như thế nào?

doanh đề nổi và gộp các bàn ghi

z -—`ʌ ΛΠ)M tạo ra bàn

ghi duy nhất từ những bàn ghi tuvng đồng vỡi các thuộc tinh đãng tin cậy nhát

Nguyễn Thi A Báng dữ liệu tham chiểu Nguyễn Thi A

Què quán NamDinh Giới tính Nữ

Hình 7: Quản lý dữ liệu tham chiếu

- Các nguyên tắc quản lý dữ liệu chủ

+Dữ liệu phải có khả năng chia sẻ: Dữ liệu chủ và dữ liệu tham chiếu cầnđược quản lý một cách thống nhất vì chúng được chia sẻ trong toàn tổ chức

Trang 38

+ Thuộc sự sở hữu: Dữ liệu chủ và tham chiếu thuộc về tổ chức, chứ khôngphải chỉ thuộc một ứng dụng hay một phòng ban cụ thể nào Bởi vì loại dữ liệu nàyđược dùng để chia sẻ rộng rãi trong toàn tổ chức, dùng chung cho tất cả các phòngban, thậm chí là đối tác bên ngoài tổ chức, nên cần thiết phải quản lý loại dữ liệunày ở mức cao

+ Chất lượng: Dữ liệu chủ và dữ liệu tham chiếu yêu cầu sự quản trị và kiểmsoát chất lượng dữ liệu cải tiến liên tục

+ Quản trị: Người quản lý dữ liệu kinh doanh chịu trách nhiệm kiểm soát vàđảm bảo chất lượng của dữ liệu tham chiếu

e Kiến trúc dữ liệu

- Định nghĩa: Kiến trúc dữ liệu bao gồm các mô hình, quy trình cùng với cácquy tắc, tiêu chuẩn nhằm mô tả cách thức, công cụ mà dữ liệu được thu thập, dữliệu, lưu trữ dữ liệu, và dữ liệu vào sử dụng, phân tích

- Kiến trúc dữ liệu

Hình 8: Kiến trúc dữ liệu

+ Data Producers (ví dụ: nhân viên nhập dữ liệu, khách hàng, )

+ Dữ liệu từ các nguồn khác nhau trong và ngoài tổ chức (source 1, source 2,source3) được thu thập về

+ Data Integration (Layer 1): thông qua các bước trích lọc, tích hợp, chuyểnđổi, dữ liệu được đưa vào Kho dữ liệu (Data warehouse) hay Data Lake (thường áp

Trang 39

Khoá luận tốt nghiệp

dụng cho các tổ chức có nguồn dữ liệu lớn) Qúa trình này thường gọi là ETL hoặcELT

+ DW or Data Lake: nơi lưu trữ dữ liệu

+ Data Intergration 2 (Layer2): Dữ liệu được lưu trữ trong DW hoặc DataLake sẽ được trích xuất ra và được biến đổi, tổng hợp, thành các khối data mart(dữ liệu thông minh)

+ Data mart: nơi lưu trữ dữ liệu theo từng chủ đề

+ Analytics and Reporting: Dữ liệu được phân tích và xây dựng thành các báocáo

+ Shared Services: được áp dụng trên tất cả các lớp kiến trúc dữ liệu nhằmmục đích cung cấp sự nhất quán và đảm bảo chất lượng dữ liệu cũng như đảm bảorằng dữ liệu được sử dụng theo các tiêu chuẩn và nguyên tắc

f Bảo mật dữ liệu

- Định nghĩa: Bảo mật dữ liệu đề cập tới các quy trình, các quy tắc và côngnghệ để bảo vệ thông tin nhạy cảm, quan trọng khỏi truy cập và sử dụng dữ liệu tráiphép với phạm vi bên trong và bên ngoài tổ chức

- Tại sao phải bảo mật dữ liệu?

Bất kỳ tổ chức nào cũng cần phải bảo mật dữ liệu vì dữ liệu là tài sản củadoanh nghiệp và quyết định đến sự sống còn của doanh nghiệp Mục tiêu của bảomật dữ liệu là:

+ Cho phép truy cập dữ liệu phù hợp và ngăn chặn các truy cập trái phép vào

dữ liệu

+ Đảm bảo rằng các yêu cầu của các bên liên quan về quyền riêng tư và bảomật được đáp ứng

- Các nguyên tắc bảo mật dữ liệu

+ Sự cộng tác: để có thể bảo mật dữ liệu hiệu quả đòi hỏi sự nỗ lực của cácbên liên quan trong toàn tổ chức, sự nỗ lực của các cá nhân- những người làm việcliên quan trực tiếp đến bảo mật dữ liệu

+ Các tiêu chuẩn và chính sách bảo mật dữ liệu phải được áp dụng thống nhấttrong toàn bộ tổ chức

Trang 40

+ Quản lý một cách chủ động và linh hoạt: thành công trong bảo mật dữ liệuphụ thuộc chủ yếu sự linh động và chủ động của tất cả các bên tham gia, quản lýđươc sự thay đổi của môi trường kinh doanh, sự thay đổi công nghệ trên thế giới+ Giảm thiểu sự chia sẻ phổ biến dữ liệu, đặc biệt là dữ liệu nhạy cảm, chỉchia sẻ khi có sự cho phép của người có thẩm quyền

- Các công cụ, phương pháp bảo mật dữ liệu

+ Sử dụng các phần mềm chống virus

+ Sử dụng các công cụ bảo mật dữ liệu chuyên nghiệp

+ Sử dụng các phần mềm phát hiện và ngăn chặn xâm nhập trái phép

Khái niệm về ETL

ETL (Extract, Transform, Load)

Ngày đăng: 07/04/2022, 13:03

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. DAMA International (2017). DAMA- DMBOK: Data Management Body of Knowledge: 2 nd Edition Sách, tạp chí
Tiêu đề: DAMA- DMBOK: Data Management Body ofKnowledge: 2"nd
Tác giả: DAMA International
Năm: 2017
2. Thomas C. Redman (2016), Bad Data Costs the U.S.$3 Trillion Per Year.Harvard Business Review Sách, tạp chí
Tiêu đề: Bad Data Costs the U.S.$3 Trillion Per Year
Tác giả: Thomas C. Redman
Năm: 2016
5. Bigdata Solution (2020). Tầm quan trọng của quản lý dữ liệu. Xem tại:https://bigdatauni.com/vi/tin-tuc/tam-quan-trong-cua-quan-ly-du-lieu-data-management-p1.html (truy cập ngày 15/3/2020) Sách, tạp chí
Tiêu đề: Tầm quan trọng của quản lý dữ liệu
Tác giả: Bigdata Solution
Năm: 2020
8. 2020. Best Data Integration Tools List for 2020. Xem tại:https://hevodata.com/blog/data-integration-tools/ (truy cập ngày 1/5/2020) 9. 2020. Best Data Quality Software. xem tại:https://www.g2.com/categories/data-quality (truy cập ngày 30/5/2020) Sách, tạp chí
Tiêu đề: Best Data Integration Tools List for 2020". Xem tại:https://hevodata.com/blog/data-integration-tools/ (truy cập ngày 1/5/2020)9. 2020". Best Data Quality Software
4. DAMA United Kingdom (October ,2013), The Six Primary Dimesions For Data Quality Assessment Khác

HÌNH ẢNH LIÊN QUAN

Hình 1: Vòng đời dữliệu - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 1 Vòng đời dữliệu (Trang 23)
+Mô hình liên kết chiến lược (Strategic Alignment Model) - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
h ình liên kết chiến lược (Strategic Alignment Model) (Trang 28)
Mô hình liên kết chiến lược đầy đủ sẽ phức tạp hơn mô hình được nêu trên. Mỗi một góc của hình lục giác đều có những chiều, yếu tố của riêng nó - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
h ình liên kết chiến lược đầy đủ sẽ phức tạp hơn mô hình được nêu trên. Mỗi một góc của hình lục giác đều có những chiều, yếu tố của riêng nó (Trang 29)
Hình 4: DataManagement Wheel - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 4 DataManagement Wheel (Trang 31)
Hình 5: Tiêu chuẩn đo lường chất lượng dữliệu - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 5 Tiêu chuẩn đo lường chất lượng dữliệu (Trang 37)
Hình 6: Quản lýdữ liệu chủ -  Quản lý dữ liệu tham chiếu - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 6 Quản lýdữ liệu chủ - Quản lý dữ liệu tham chiếu (Trang 40)
- Định nghĩa: Kiến trúc dữliệu bao gồm các mô hình, quy trình cùng với các quy tắc, tiêu chuẩn nhằm mô tả cách thức, công cụ mà dữ liệu được thu thập, dữ liệu, lưu trữ dữ liệu, và dữ liệu vào sử dụng, phân tích - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
nh nghĩa: Kiến trúc dữliệu bao gồm các mô hình, quy trình cùng với các quy tắc, tiêu chuẩn nhằm mô tả cách thức, công cụ mà dữ liệu được thu thập, dữ liệu, lưu trữ dữ liệu, và dữ liệu vào sử dụng, phân tích (Trang 42)
Hình 10: Mô hình ELT - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 10 Mô hình ELT (Trang 45)
Hình 11: Cơ cấu tổ chức - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 11 Cơ cấu tổ chức (Trang 50)
Hình 12: Sơ đồ các khía cạnh quản lýdữ liệu - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 12 Sơ đồ các khía cạnh quản lýdữ liệu (Trang 52)
Hình 13: Sơ đồ mô tả các vấn đề đang tồn tại trong quản lýdữ liệu - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 13 Sơ đồ mô tả các vấn đề đang tồn tại trong quản lýdữ liệu (Trang 61)
Hình 14: Khung quản lýdữ liệu của tổ chức - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 14 Khung quản lýdữ liệu của tổ chức (Trang 65)
Hình 15: Luồng thu thập dữliệu - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Hình 15 Luồng thu thập dữliệu (Trang 68)
- Bảng khách hàng có một số trường sau: - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
Bảng kh ách hàng có một số trường sau: (Trang 71)
Có thể thấy rằng, dữliệu đang bị dư thừa ở hai bảng khác hàng và giao dịch khi trùng rất nhiều trường chung như: Số điện thoại, ngày sinh, giới tính, họ tên, quê quán, .Ví dụ: bảng giao dịch trung bình sẽ có khoảng 5 đến 6 triệu giao dịch mỗi ngày thì việ - 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp
th ể thấy rằng, dữliệu đang bị dư thừa ở hai bảng khác hàng và giao dịch khi trùng rất nhiều trường chung như: Số điện thoại, ngày sinh, giới tính, họ tên, quê quán, .Ví dụ: bảng giao dịch trung bình sẽ có khoảng 5 đến 6 triệu giao dịch mỗi ngày thì việ (Trang 72)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w