1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng data warehouse và business intelligence cho công ty ngành nhựa tại tp HCM

88 137 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 0,97 MB
File đính kèm Data Warehouse và Business Intelligence.rar (22 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

NHIỆM VỤ VÀ NỘI DUNG:Tìm hiểu về cơ sở lý thuyết để xây dựng Data Warehouse và Business Intelligence.Khảo sát thực trạng cơ sở hạ tầng CNTT và quy trình nghiệp vụ bán hàng tại một công ty ngành nhựa TPHCM.Đề xuất xây dựng hệ thống Data Warehouse và Business Intelligence cho một công ty ngành nhựa tại TPHCM

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN TÀI

XÂY DỰNG DATA WAREHOUSE VÀ BUSINESS INTELLIGENCE CHO CÔNG TY NGÀNH NHỰA TẠI

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BACH KHOA -ĐHQG -HCM

Cán bộ hướng dẫn khoa học : PGS.TS Nguyễn Thanh Bình

Cán bộ chấm nhận xét 1: PGS.TS Trần Mạnh Hà

Cán bộ chấm nhận xét 2: PGS.TS Đặng Trần Khánh

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 03 tháng 07 năm 2019 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 TS Trần Quang Minh

2 TS Trương Tuấn Anh

3 PGS.TS Trần Mạnh Hà

4 PGS.TS Đặng Trần Khánh

5 TS Lê Hồng Trang

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn Văn Tài MSHV: 1670466 Ngày, tháng, năm sinh: 09/01/1991 Nơi sinh: Thái Bình Ngành: Hệ Thống Thông Tin Quản Lý Mã số : 60.34.04.05

TÊN ĐỀ TÀI: Xây dựng Data Warehouse và Business Intelligence cho một công ty ngành Nhựa tại TP.HCM

NHIỆM VỤ VÀ NỘI DUNG:

- Tìm hiểu về cơ sở lý thuyết để xây dựng Data Warehouse và Business Intelligence

- Khảo sát thực trạng cơ sở hạ tầng CNTT và quy trình nghiệp vụ bán hàng tại một công ty ngành nhựa TPHCM

- Đề xuất xây dựng hệ thống Data Warehouse và Business Intelligence cho một công ty ngành nhựa tại TPHCM

I NGÀY GIAO NHIỆM VỤ: 13/08/2018

II NGÀY HOÀN THÀNH NHIỆM VỤ: 02/06/2019

III CÁN BỘ HƯỚNG DẪN: PGS.TS Nguyễn Thanh Bình

Trang 4

LỜI CẢM ƠN

Để có thể hoàn thành đề tài luận văn thạc sĩ một cách hoàn chỉnh, bên cạnh sự nỗlực cố gắng của bản thân còn có sự hướng dẫn nhiệt tình của quý Thầy Cô, cũng như sựtạo điều kiện thuận lợi từ phía công ty đang công tác và sự động viên ủng hộ của gia đình

và bạn bè trong suốt thời gian học tập nghiên cứu và thực hiện luận văn thạc sĩ

Xin chân thành bày tỏ lòng biết ơn đến Thầy PGS.TS Nguyễn Thanh Bình người đãhết lòng giúp đỡ tạo mọi điều kiện tốt nhất cho tôi hoàn thành luận văn này Xin chânthành bày tỏ lòng biết ơn đến quý thầy cô trong khoa Khoa học máy tính và khoa sau đạihọc Đại học Quốc gia TPHCM - Trường Đại học Bách Khoa đã tận tình truyền đạt nhữngkiến thức quý báu cũng như tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tậpnghiên cứu tại trường

Xin chân thanh cảm ơn công ty ngành nhựa mà tôi đang công tác đã cho phép vàkhông ngừng hỗ trợ thực hiện luận văn

Cuối cùng tôi xin chân thành cảm ơn đến gia đình, bạn bè, đồng nghiệp đã hỗ trợcho tôi rất nhiều trong suốt quá trình nghiên cứu và thực hiện đề tài luận văn thạc sĩ mộtcách hoàn chỉnh

TP Hồ Chí Minh, tháng 4 năm 2019

Học viên thực hiện

Nguyễn Văn Tài

Trang 5

TÓM TẮT LUẬN VĂN

Mục tiêu của đề tài là “Xây dựng hệ thống Data Warehouse và BI cho một công ty ngànhnhụa tại TPHCM” Hệ thống này nhằm tập trung dữ liệu từ nhiều nguồn dữ liệu khác nhauvới mục địch khai thác, xử lý thông tin hỗ trợ cho ban lãnh đạo ra quyết định nhanh và chínhxác Đề tài này tác giả giới hạn lại việc xây dụng hệ thống data warehouse và BI dành chophân hệ bán hàng và đi sâu vào bốn sụ kiện: bán hàng, công nợ khách hàng, kế hoạch sảnxuất, khiếu nại của khách hàng Để triển khai mục tiêu trên tác giả thục hiện các công việcnhu: Tìm hiểu cơ sở lý thuyết data warehouse và BI, khảo sát thục trạng cơ sở hạ tầng CNTT

và quy trình nghiệp vụ bán hàng của công ty, đề xuất mô hình data warehouse và BI cho công

ty đi sâu vào ba sụ kiện chính: bán hàng, công nợ khách hàng, kế hoạch sản xuất, khiếu nạikhách hàng, và cuối cùng tác giả xin ý kiến đánh giá từ ban lãnh đạo công ty, hệ thống có thểđáp ứng đuợc với nhu cầu hiện nay của công ty

ABTRACT

The objective of the project is "Building a Data Warehouse and BI system for a plasticindustry company in Ho Chi Minh City" This system aims to focus data from many differentdata sources with the aim of exploiting and processing information to support managementboard to make decisions quickly and accurately This topic limits the construction of datawarehouse and BI systems for sales modules and delves into four events: sales, customerdebt, production plans and customer complaints To implement the objectives on the authorperform tasks such as: Understanding warehouse data base and BI, surveying the status of ITinfrastructure and the company's sales process, proposing models Data warehouse and BI forthe company went into three main events: sales, customer debt, production plans, customercomplaints, and finally the author asked for comments from the company's management, Thesystem can meet the current needs of the company

Trang 6

LỜI CAM ĐOAN

Tôi xin cam đoan Luận văn Thạc sĩ Hệ Thống Thông Tin Quản Lý: “ Xây dụng Data

Warehouse và Business Intelligence cho một công ty ngành Nhụa tại TP.HCM” là kết quả của quá trình học tập, nghiên nghiêm túc

Các số liệu, kết quả trong luận văn là trung thục, tôi thục hiện khảo sát tại công ty ngành nhụa mà tôi đang làm việc, đuợc sụ cho phép, ủng hộ từ Ban Lãnh Đạo công ty

TP Hồ Chí Minh, ngày 01 tháng 04 năm 2019

Nguyễn Văn Tài

Trang 7

MỤC LỤC

DANH MỤC BẢNG BIỂU

Trang 8

DANH MỤC HÌNH ẢNH

Trang 9

ETL: Extraction - Transformation - Loading

DSA: Data Staging Arear

ĐVBH: Đơn vị bán hàng: các Phòng Kinh Doanh,các Đại lý,các cửa hàng.PXK: Phòng Xuất Khẩu

ĐDLĐ: Đại diện lãnh đạo

GĐKD: Giám đốc Kinh doanh

GĐKD : Giám đốc Xuất khẩu

HTQLCL: Hệ thống quản lý chất lượng

NLĐƯ : Năng lực đáp ứng

Trang 10

PYCTM-ĐM: Phiếu yêu cầu thử mẫu và tính Định mức.PYCSP: Phiếu yêu cầu sản phẩm

BBHĐG: Biên bản hội đồng giá

KHQ: Khai Hải Quan

Trang 11

CHƯƠNG I GIỚI THIỆU

Trong chương này tác giả nêu ra lý do cũng như mục tiêu đề xuất xây dựng hệ thốngdata warehouse và BI trong một công ty ngành nhựa tại TP.HCM Để triển khai các mụctiêu đặt ra, tác giả liệt kê ra sáu công việc cần làm để hoàn thành mục tiêu

Trong quá trình triển khai xây dựng data warehouse và BI cần một nguồn lực tươngđối lớn (con người, thời gian, chi phí ) Vì thế tác giả đề xuất chọn phân hệ bán hàng vàchỉ đi sâu vào một số bước trên tổng sáu bước nói ở trên

Để hiểu rõ hơn về chương này, dưới đây là phần trình bày chitiết của chương giới thiệu đề tài

1 1

Trang 12

1.1 GIỚI THIỆU ĐỀ TÀI

Trong môi trường cạnh tranh trong ngành nhựa tại Việt Nam như ngày nay, khách hàng

là nhân tố quyết định sự tồn tại của doanh nghiệp Các doanh nghiệp ngành nhựa cần phảitìm hiểu nhu cầu đa dạng của khách hàng, giành cho họ giá trị tối ưu hơn so với đối thủcạnh tranh và có những quyệt định chiến lược phù hợp trong sản xuất và kinh doanh.Trong những năm qua thị trường ngành Nhựa tại Việt Nam đang gặp rất nhiều cạnhtranh khốc liệt Các công ty lớn ngành nhựa đang bị các tập toàn nước ngoài mua và kiểmsoát công ty, còn lại một số danh nghiệp vẫn còn trụ lại thì đang gặp rất nhiều khó khăn

về việc nhập khẩu nguyên liệu, chính sách, giá thành, chất lượng và một vấn đề cũngquan trọng không kém là áp dụng hệ thống công nghệ thông tin vào quản lý

Một số doanh nghiệp nói chung cũng như doanh nghiệp Nhựa nói riêng ngày nay đanggặp phải một số thách thức về hệ thống CNTT trong quản lý như:

- Hệ thống báo cáo lấy từ nhiều nguồn sau đó mới hợp nhất lại để thành báo cáo tổngthể, rất mất thời gian, dễ xảy ra sai sót

- Ban lãnh đạo công ty không tự tin ra quyết định vì thiết thông tin, các thông tinchấp vá từ nhiều hệ thống, từ nhiều loại file khác nhau

- Chính vì sự ra quyết định chậm của Ban Lãnh Đạo công ty đôi khi công ty mất đi

cơ hội đầu tư, mất đi khách hàng

Từ những thách thức trên, và hơn nữa Tác giả lại là một nhân viên làm trong một công

ty trong ngành nhựa đang sử dụng nhiều hệ thống CNTT riêng lẻ trong quản lý, rất mấtthời gian trong khi làm báo cáo, thiếu thông tin để ra quyết định Vì thế công ty Tác giảđang cần mộ hệ thống tích hợp dữ liệu từ các nguồn dữ liệu riêng lẻ công ty đang sửdụng

Với những thách thức và nhu cầu trên, Tác giả xin đề xuất: “Xây dựng Data

Warehouse và BI cho một công ty ngành Nhựa tại TP.HCM” để giải quyết những vướng

mắc mà công ty đang gặp phải

1.2 MỤC TIÊU CỦA ĐÈ TÀI

Mục tiêu của đề tài là “Xây dựng data warehouse và BI cho công ty ngành nhựa tạiTPHCM” nhằm giải quyết các vấn đề sau:

-Cung cấp thông tin đầy đủ, chính xác, đa chiều; bám sát các nhu cầu quản lý củalãnh đạo công ty, theo dõi tình hình thực hiện các chỉ tiêu kế hoạch năm của từngđơn vị, phân tích tình hình kinh doanh các chiến lược theo các chiều thông tinkhác nhau

Trang 13

- số liệu báo cáo được lưu trữ trong một CSDL tập trung theo mô hình DW, đảm bảotính an toàn, bảo mật và tránh nguy cơ mất dữ liệu.

- Báo cáo được trình bày dễ hiểu, cho phép truy cập mọi lúc

1.3 NỘI DUNG CỦA ĐỀ TÀI

Đề tài tập trung nghiên cứu, xây dựng một hệ thống thông tin quản trị trong một công

ty ngành nhựa tại TPHCM, theo mô hình Data Warehouse và BI Data Warehouse là hệthống lưu trữ dữ liệu tập trung từ nhiều nguồn dữ liệu khác nhau nhằm mục đích khaithác, xử lý thông tin hỗ trợ ra quyết định BI gồm các các chương trình ứng dụng phầnmềm để đưa ra các báo cáo gần với nghiệp vụ cho nhà lãnh đạnh đưa ra quyết định chínhxác và nhanh nhất

Việc triển khai đề tài gồm có các công việc sau:

- Tìm hiểu cơ sở lý thuyết liên quan đến đề tài

- Tìm hiểu quy trình nghiệp vụ trong công ty ngành nhựa

- Khảo sát thực trạng hạ tầng CNTT và quy trình nghiệp vụ của công ty

- Xây dựng hệ thống cơ sở dữ liệu chủ đề (Data Mart) của nghiệp vụ chọn đểtriển khai

- Thực hiện tiến trình đưa dữ liệu từ hệ thống nguồn vào hệ thống dữ liệu chủ đề(Data Mart) - Tiến trình ETL

- Xây dựng hệ thống báo cáo thông minh BI

- Hiện thực hệ thống

1.4 GIỚI HẠN ĐỀ TÀI

Dựa vào mục tiêu của đề tài “Xây dựng Data Warehouse và BI cho công ty ngành nhựatại TPHCM”, Tác giả muốn hướng tới xây dựng toàn bộ các phân hệ trong công ty để cómột giải pháp toàn diện Data Warehouse và BI

Nhưng có một số vướng mắc như sau:

- Việc xây dựng một hệ thống DW và BI cần một nguồn nhân lực tương đối lơn(Con người, chi phí, thời gian )

Với những vướng mắc như trên, Tác giả xin đề xuất chọn một phân hệ Bán Hàng đểtriển khai trong đề tài này

Để triển khai công việc xây dựng DW và BI cho phân hệ Bán Hàng tại công ty thì cầnphải làm các công việc sau:

- Công Việc thứ nhất: Tìm hiểu quy trình nghiệp vụ bán hàng trong công ty

Trang 14

- Công Việc thứ hai: Khảo thực trạng hạ tầng CNTT và quy trình nghiệp vụ bán hàng của công ty.

- Công Việc thứ ba: Xây dựng hệ thống cơ sở dữ liệu chủ đề (Data Mart) cho phân hệ bán hàng

- Công Việc thứ tư: Thực hiện tiến trình đưa dữ liệu từ hệ thống nguồn vào hệ thống dữ liệu chủ đề (Data Mart) - Tiến trình ETL

- Công Việc thứ năm: Xây dựng hệ thống báo cáo thông minh BI

- Công Việc thứ sau: Hiện thực hệ thống

Với sáu công việc cần làm để xây dựng DW và BI, Tác giả sẽ đi nghiên cứu kỹ phần côngviệc thứ nhất, hai, ba và thứ tư

1.5 PHƯƠNG PHÁP NGHIÊN CỨU

- Phương pháp phân tích và tổng hợp lý thuyết

- Phương pháp điều tra

- Phương pháp hỏi ý kiến chuyên gia

1.6 CẤU TRÚC LUẬN VĂN

Luận văn được trình bày gồm 6 chương sau đây:

- Chương 1: Giới thiệu

- Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan

-Chương 3: Thực trạng cơ sở hạ tầng CNTT và quy trình nghiệp vụ bán hàng của côngty

-Chương 4: Phương pháp đề xuất xây dựng hệ thống data warehouse và BI

- Chương 5: Đánh giá hệ thống

- Chương 6: Kết luận

Trang 15

CHƯƠNG 2: cơ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN cứu

LIÊN QUAN

Trong chương 2: cơ sở lý thuyết và các nghiên cứu liên quan, tác giả trình bày về cơ

sở lý thuyết data warehouse và BI trong đó đi tìm hiểu về: lý do cần phải có datawarehose và BI trong doanh nghiệp, đặc tính của data warehouse, lợi ích của kho dữ liệu,các kho dữ liệu hiện nay và tổ chức dữ liệu trong kho dữ liệu

Tiếp theo trình bay đến phần kiến trúc của data warehouse gồm có: thành phần trongdata warehouse, tiến trình ETL, CSDL đa chiều với OLAP, và các công cụ truy vấn phântích dữ liệu Cuối cùng trong chương này tác giả trình bày một số nghiên cứu liên quan.Dưới đây là phần tác giả đã trình bày chi tiết trong chương này để người đọc hiểu rõhơn

Trang 16

2.1 Cơ SỞ LÝ THUYẾT DATA WAREHOUSE BI

2.1.1 Một số lý do cần phải có Data Warehouse và BI trong doanh nghiệp

Các doanh nghiệp ngày nay khi áp dụng một hệ thống thông tin vào công việc sản xuấtkinh doanh của công ty thì không thể thiếu được phần báo cáo

Đề có được báo cáo tốt thì doanh nghiệp cần cung cấp vào hệ thống các dữ liệu đầu vào

đủ, chính xác và tổn tại theo thời gian Với thời đại công nghệ thông tin phát triển nhưngày nay thì có rất nhiều giải pháp để giải quyết việc kiểm soát một hệ thống đầu vào dữliệu để đưa ra được các báo cáo mang tính chất quyết định

Trong phần này Tác giả xin đề cấp đến một số lý do doanh nghiệp cần phải có hệ thốngkho dữ liệu (DW) và báo cáo thông minh (BI) như sau:

- Tổ chức phải viết và duy trì hàng trăm chương trình để trích xuất, chuẩn bị, hợpnhất dữ liệu để sử dụng cho nhiều chương trình khác nhau dùng để phân tích vàbáo cáo

- Người ra quyết định muốn khai thác sâu hơn vào các dữ liệu

- Điều này dẫn đến các yêu cầu phát triển chương trình trích xuất mới hơn Quátrình này rất tốn kém, không hiệu quả và tốn thời gian Data Warehousing cung cấpmột phương pháp tiếp cận tốt hơn

- Data Warehousing thực hiện quá trình truy cập dữ liệu từ các nguồn không đồngnhất; làm sạch, lọc và chuyển đổi dữ liệu; lưu trữ dữ liệu theo cấu trúc để dễ dàngtruy cập, hiểu rõ và sử dụng

- Dữ liệu sau đó được dùng để truy vấn, báo cáo và phân tích dữ liệu

- Khối lượng dữ liệu trong kho dữ liệu có thể rất lớn, đặc biệt khi xem xét các yêucầu phân tích dữ liệu mang tính lịch sử

- Chương trình phân tích dữ liệu đòi hỏi phải quét qua khối lượng dữ liệu rất lớn, cóthể dẫn đến kết quả không tốt cho các ứng dụng hoạt động

Business Intelligence

- Giúp các tổ chức doanh nghiệp đưa ra những quyết định đúng đắn nhất cho việckinh doanh giữa hàng trăm, hàng ngàn lựa chọn

Trang 17

- Đây là cách tốt nhất để công ty có thể vượt lên trên đối thủ của mình vì bản thân

dữ liệu chính là feedback của khách hàng, là xu hướng của thị trường vv

- Khi phân tích các sự kiện mua hàng hoặc sử dụng 1 sản phẩm của khách hàng,công ty có thể xác định được ngân sách ngay từ ban đầu khi muốn đưa ra sản phẩmmới cho thị trường

- Ngoài việc phát hiện những cơ hội kinh doanh mới, BI còn giúp doanh nghiệpđánh giá lại những mặt yếu kém về: quy trình nội bộ, sản phẩm, chiến lượcmarketing dựa trên những benchmark của thị trường và đối thủ

2.1.2 Đặc trưng của kho dữ liệu (Data Warehouse)

Cũng như các hệ thống CNTT khác, kho dữ liệu có những đặc trưng riêng biệt sau:

- Tính tích họp (Integration): Dữ liệu của DW được tập hợp về từ các nguồn khácnhau như các CSDL của các hệ thống tác nghiệp, các file tài liệu của một doanhnghiệp

- Hướng chủ đề (Subject-Oriented): Dữ liệu của DW được tổ chức và lưu trữ theocác chủ đề nghiệp vụ mà người khai thác quan tâm Ví dụ: Dữ liệu của một doanhnghiệp trong DW có các chủ đề sau:

Thực thể doanh nghiệp: Khách hàng, đối tác, đại lý

Hoạt động của doanh nghiệp: Bán hàng, phân phối, chế tạo

- Tích lũy theo thời gian (Time-Variant): Dữ liệu lưu trữ có tính chất lịch sử, theodòng thời gian tính từ một thời điểm trong quá khứ cho đến hiện tại và các dữ liệu

sẽ phát sinh trong tương lai

- Bất biến (Non-Volatile): Dữ liệu đã đưa vào trong DW nói chung ở dạng chỉ đọc(read-only) và rất hiếm khi thay đổi (không update, không delete) DW chính lànhững cơ sở dữ liệu (CSDL) được thiết kế cho mục đích khai thác và phân tíchthông tin (query - truy vấn) chứ không phải mục đích cập nhật (update-cập nhật,delete-xóa) như trong CSDL của các ứng dụng tác nghiệp

2.1.2 Đặc tính của kho dữ liệu

Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phát sinh ngày càngnhiều Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích hỗ trợcho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích Quá trình tậphợp và thao tác trên các dữ liệu này có những đặc tính sau:

- Tính tích họp

Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiềunguồn và trộn ghép với nhau tạo thành một thể thống nhất

Trang 18

Một kho dữ liệu là một khung nhìn tổng thể thống nhất các khung nhìn khác nhau Ví dụ: một hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung một dạng thông tin về khách hàng, nhưng các vấn đề về tài chính cần một khung nhìn khác cho thông tin

về khách hàng Một kho sẽ có một khung nhìn toàn thể về một khách hàng Khung nhìn

đó bao gồm các phần dữ liệu khác nhau từ các hệ thống tác nghiệp khác nhau

- Dữ liệu tổng họ p

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tácnghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiềugiai đoạn khác nhau

2.1.3 Đặc trưng kho dữ liệu và cư sở dữ liệu thông thường

DW về bản chất cũng là một database bình thường, các hệ quản trị cơ sở dữ liệu quản

lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữliệu lớn và truy vấn) Một số khác biệt của DW so với database

- Trước tiên DW là database rất lớn

- Database hướng về xử lý thời gian thực, DW hướng về dữ liệu lịch sử, tính ổnđịnh

- Database phục vụ xử lý transaction, cập nhật Datawarehouse thường chỉ đọc, phục

vụ cho những nhu cầu báo cáo

- DW sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLServerthậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó DWrất lớn nên muốn cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thểkhai thác thông dễ dàng thì bản thân DW phải được chuyên hoá, phân ra thànhnhững chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Databasechuyên biệt, đó là Data mart

Trang 19

- Một điểm quan trọng là Database thuờng đuợc chuẩn hóa (Dạng chuẩn 1, 2, 3, BCK)

để khai thác DW phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo luợc đồ hìnhsao trong Data mart, điều này đồng nghĩa với việc DW sẽ trùng lắp thông tin Thật

ra điều này theo Tác giả nghĩ là hiển nhiên vì việc chuẩn hoá nhằm tránh sụ trùnglắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sủa, tuy nhiên

DW là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắpthông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn Đây cũng là một quy luật: Càngtrùng lắp thông tin thì tìm kiếm càng dễ dàng và nguợc lại

2.1.4 Lợi ích của kho dữ liệu mang lại

Tạo ra nhũng quyết định có ảnh hưởng lớn: Một DW cho phép trích rút tài nguyênnhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào

cơ sở dữ liệu hoạt động và sản xuất Điều này tạo ra sự tiết kiệm đáng kể Có kho dữ liệucũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trìnhquá lâu hoặc các báo cáo và các câu truy vấn phức hợp

Công việc kỉnh doanh trở nên thông minh hon: Tăng thêm chất lượng và tính linhhoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữliệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanhcho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được dữ liệu chính xác và đáng tincậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và

ổn định (trusted data)

Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan hệvới khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua mộtkho dữ liệu riêng

Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích không ngừng thôngtin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó

có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại Chỉ khixác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được những hạnchế và mục tiêu kinh doanh một cách chính xác hơn

Tái sáng tạo hệ thống thông tin: Một DW là nền tảng cho các yêu cầu dữ liệu trongmọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quencho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theochuẩn quốc tế

Trang 20

2.1.5 Kho dữ liệu hiện nay

Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp thôngminh làm tăng mối quan hệ khách hàng (CRM - Customer Relationship Management) vàkhai thác dữ liệu Một số được sử dụng để báo cáo tổng hợp, một số được sử dụng để tíchhợp dữ liệu Các cách sử dụng này đều tương quan với nhau; ví dụ, quản trị doanh nghiệpthông minh (Business Intelligence - BI) và CRM sử dụng khai thác dữ liệu, kinh doanhthông minh sử dụng báo cáo, còn BI và CRM còn sử dụng tích hợp dữ liệu Trong cácphần sau sẽ mô tả cách sử dụng chính, bao gồm quản trị doanh nghiệp thông minh, CRM

và khai thác dữ liệu

a Quản trị doanh nghiệp thông minh

Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thông minh hơn là

DW Nói cách khác, họ tập trung hơn vào việc xem DW có thể làm gì cho doanh nghiệp.Nhiều DW hiện nay được dùng cho BI: giúp nhà kinh doanh hiểu công việc kinh doanhcủa họ hơn; giúp họ đưa ra các quyết định hành động, chiến lược, và mục tiêu kinh doanhtốt hơn; giúp họ cải tiến hoạt động kinh doanh

Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu Và 1công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của kho dữ liệu có thể làmột công cụ hỗ trợ tốt cho mục đích đó Điều này có được là do sử dụng báo cáo vàOLAP Báo cáo DW được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong DW tớinhững người kinh doanh OLAP cho phép doanh nghiệp phân tích sựảnh hưởng lẫn nhaucủa dữ liệu giao dịch kinh doanh được lưu trữ trong DW đa chiều

b Quản lý mối quan hệ khách hàng

Một hệ thống quản lý mối quan hệ khách hàng (CRM - Customer RelationshipManagement) gồm có những ứng dụng mà hỗ trợ quản lý mối quan hệ khách hàng Trongmột hệ thống CRM, chức năng lý tưởng sau đây được xây dựng trong một DW đa chiều:

Trang 21

ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đâytốn nhiều thời gian để xử lý Với ưu điểm trên, Data mining đã chứng tỏ được tính hữudụng của nó trong môi trường kinh doanh đầy tính cạnh tranh20 ngày nay và được ứngdụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễnthông,

d Tích họp dữ liệu khách hàng

Tích hợp dữ liệu khách hàng (CDI- Customer Data Integration) là MDM cho dữ liệukhách hàng CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ liệucủa khách hàng CDI hệ thống chiết dữ liệu khách hàng từ hệ thống OLTP, làm sạch nó,lưu trữ trong một kho dữ liệu khách hàng chính, duy trì dữ liệu của khách hàng, lưu giữ

nó, và phân phối các dữ liệu khách hàng cho các hệ thống khác

Hệ thống CDI cho phép bạn có một phiên bản dữ liệu khách hàng sạch hơn, duy nhất,đáng tin cậy mà các ứng dụng khác trong các doanh nghiệp có thể sử dụng Điều này cũng

có thể gia tăng lợi ích kinh doanh chẳng hạn như tăng sự hài lòng của khách hàng và phântích kinh doanh tốt hơn, và nó làm giảm sự phức tạp của các quá trình sử dụng dữ liệukhách hàng Tất cả các loại khác nhau của quản lý dữ liệu chính, CDI là sử dụng rộng rãinhất bởi vì mỗi tổ chức có khách hàng CDI cung cấp dữ liệu tích hợp sạch cho quản lýmối quan hệ khách hàng

e Dữ liệu phi cấu trúc

Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ sở dữliệu quan hệ như Oracle, MS SQL Server, MySQL, trong đó các thực thể và các thuộctính được định nghĩa sẵn Ví dụ, dữ liệu của một thí sinh dự thi đại học có thể bao gồmcác thông tin như họ tên, năm sinh, trường dự thi, điểm thi các môn Trong khi đó dữ liệuphi cấu trúc (Unstructured Data) thường dùng để chỉ dữ liệu ở dạng tự do (free type) vàkhông cần có cấu trúc định nghĩa sẵn Các trang web, video, ảnh, âm thanh là các ví dụcủa dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc được lưu trữ trong kho dữ liệu như thế nào ? Và, sau khi lưu giữ,làm thế nào để nhận được những thông tin mà bạn cần ra khỏi dữ liệu này ? Để trả lời câuhỏi thứ nhất, đối với mỗi thành phần dữ liệu phi cấu trúc bạn định nghĩa thuộc tính và sau

đó thiết lập những thành phần đó theo các thuộc tính Bạn có thể lưu trữ các thành phần

dữ liệu phi cấu trong một cơ sở dữ liệu quan hệ như là một cột đối tượng nhị phân, vớicác thuộc tính như là các cột khác Hoặc bạn có thể lưu trữ các thành phần dữ liệu phi cấutrúc trong hệ thống tập tin và chỉ cần lưu trữ các con trỏ vào tập tin trong cơ sở dữ liệu.Mỗi kiểu của dữ liệu phi cấu trúc có thuộc tính về vật lý và nội dung khác nhau Cácthuộc tính có thể được lưu giữ trong một hay nhiều cơ sở dữ liệu để cho phép người sử

Trang 22

dụng dễ dàng tìm thấy dữ liệu phi cấu trúc riêng chi tiết Nội dung của các dữ liệu phi cấutrúc chính nó có thể được phân tích, trích xuất, phân loại, lưu trữ và để hỗ trợ truy vấnthông tin.

f Kho dữ liệu thời gian thực:

DW ngày nay thông thường được cập nhật từng ngày, từng tuần, từng tháng, Có một

số yêu cầu của những người sử dụng muốn nhìn thấy dữ liệu trong kho dữ liệu được cậpnhật cứ hai phút một lần hay thậm chí thời gian thực Một DW thời gian thực (Real-TimeData Warehouse) là một DW mà được cập nhật (bởi ETL) ngay thời điểm giao dịch xảy ratrong hệ thống nguồn

2.1.7 Tổ chức dữ liệu trong kho dữ liệu

a Lược đồ dữ liệu trong DW

Trong thiết kế logic DW, có hai loại mô hình CSDL thường được sử dụng, đó là: môhình sao và mô hình bông tuyết:

- Star Schema (lược đồ hình sao): là CSDL quan hệ được thiết kế logic dạng hình saobao gồm một bảng dữ liệu chi tiết ở vị trí trung tâm quan hệ với các bảng dữ liệu danhmục xung quanh (kiểu N:l) Mỗi bảng danh mục đều là bảng duy nhất của nhánh, không

có quan hệ với bảng danh mục nào khác Ví dụ, trong mô hình sao sau đây, bảng dữ liệutrung tâm thể hiện sản lượng và doanh số, các bảng danh mục xung quanh là: khách hàng,sản phẩm, kênh phân phối, thời gian

Hình 2 1: Ví dụ về lược đồ hình sao

Hình 2.1 là một ví dụ về lược đồ hình sao và mục tiêu của lược đồ hình sao là truy vấn

dữ liệu được nhanh nhất; chấp nhận dư thừa dữ liệu ở các bảng danh mục

- Snowflake Schema (lược đồ hình bông tuyết): là CSDL hình sao nhưng được chuẩnhóa theo một dạng chuẩn khác: mỗi bảng danh mục được tách thành các bảng danh mụcphân cấp (nếu có) để đảm bảo không dư thừa dữ liệu Trong ví dụ dưới đây, nhánh bảngkhách hàng đã được tách thành các bảng phân cấp

Trang 23

Hĩnh 2 2: Ví dụ về lược đồ hình bông tuyết

Hình 2.2 là ví dụ về lược đồ bông tuyết và mục tiêu của mô hình bông tuyết là kế thừaviệc truy vấn nhanh của mô hình sao; không để dưa thừa dữ liệu

b Mô hình dữ liệu đa chiều

Bản chất đa chiều của các câu hỏi trong nghiệp vụ được phản ánh trong thực tế chẳnghạn như những người quản lí thị trường không được thoả mãn với câu hỏi theo một chiềuđơn giản, thay vào đó là những câu hỏi phức tạp Một cách để quan sát một mô hình dữliệu nhiều chiều là nhìn nó như một hình khối Hình 2.3 thể hiện câu truy vấn theo bốnchiều: khách hàng, dịch vụ, thời gian

Facts

Hình 2 3: Mô hình dữ liệu đa chiều

Thời gian ừả lời một truy vấn nhiều chiều phụ thuộc vào số lượng các ô được thêm vào trong quá trình thực hiện Khỉ số lượng chiều tăng thì số ô của khối này tăng theo cấp số

mũ Bên cạnh đó, những truy vấn đa chiều đều liên quan tới những dữ liệu ờ cao và dữ liệu

Trang 24

tổng Vì vậy, giải pháp để xây dựng một cơ sở dữ liệu đa chiều có hiệu quả là phải kết hợp từ trước tất cả các tổng con logic và các tổng theo tất cả các chiều Sự kết hợp trước này đặc biệt cố giá trị khi các chiều mang tính phân cấp.

Sự phân cáp về kích thước, quản lí dữ liệu thưa hơn và sự kết hợp trước là quan trọng vì chúng làm giảm đáng kề kích cỡ của cơ sở dữ liệu và những yếu cầu tính toán các giá trị Một thiết kế như vậy loại bỏ việc phải kết hợp nhiều bảng và cung cấp sự truy nhập trực tiếp và nhanh tới các câu trả lời vì vậy cải thiện đáng kể tốc độ trong việc thực hiện các truy vấn đa chiều.

Các thành phần chính

Các dữ kiện (Facts)

- Miêu tả các vùng kỉnh doanh

- Không thay đổi khỉ nỗ đã được sinh ra

- Được lưu tại một cấp thô nào đó

Các chiều (Dimensions)

- Thông tin tham chiếu qua đó các dữ kiện cố thể được cấu trúc cho việc phan Tích

- Định nghĩa cảc phân cấp

Và các khối đa chiều (Cubes)

Một khối có thể có nhiều chiều

- Một khối bao gồm nhiều ô dữ liệu

c Bảng sự kiện

Bảng sự kiện điển hình có hai kiểu cột, chúng chứa đựng những sự kiện số (thường gọi

là thước đo), và chứa khóa của các bảng dimension Bảng sự kiện chứa đựng những sựkiện mức chi tiết hoặc những sự kiện mà đã được tổng hợp lại Bảng sự kiện mà chứa sựkiện tổng hợp thường được gọi là những bảng tóm tắt Bảng sự kiện thông thường chứađựng những sự kiện với cùng mức của sự tổng hợp Tuy nhiên hầu hết những sự kiện liênkết tất cả các chiều, nó có thể liên kết với 1 số chiều hoặc không liên kêt

Bảng sự kiện là bảng chứa dữ liệu chi tiết nên có số lượng bản ghi rất lớn và cònthường xuyên được cập nhật, bổ sung dữ liệu, trong khi đó các bảng dimension thường cốđịnh nói đúng hơn là có sự thay đổi không đáng kể theo thời gian Bảng theo chiều chứađựng các thuộc tính có thể được sử dụng như các tiêu chí tìm kiếm và thường có kíchthước nhỏ hơn rất nhiều, rất quen thuộc với người sử dụng từ trước

d Bảng chiều dữ liệu

Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu số trong khối được phânchia để phân tích Khi xác định một chiều, chọn một hoặc nhiều cột của một trong các

Trang 25

bảng liên kết (bảng chiều) Nếu ta chọn các cột phức tạp thì tất cả cần có quan hệ vớinhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn Đểxác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể nhất Ví dụ: mộtchiều thời gian được tạo ra từ các cột năm, qúy, tháng, ngày.

Mỗi cột trong chiều góp phần vào một cấp độ cho chiều Các cấp độ được sắp đặt theonét riêng biệt và được tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợplogic cho việc đào sâu (drill_down) Ví dụ: chiều thời gian được miêu tả ở trên cho phépngười dùng khối đào sâu từ năm tới qúy, từ qúy tới tháng và từ tháng tới ngày

2.2 KIẾN TRÚC DATA WAREHOUSE

DW và kiến trúc của nó tùy thuộc vào vị trí của từng tổ chức Có 3 kiến trúc phổ biếncủa DW:

- Kiến trúc DW cơ bản: Đây là kiến trức đơn giản cho DW

( https://docs.OTacle.com/cd/El 1882 Oĩ/server 112/e255Wconcept.htm#DWHSG8071 1

Hình 2.4 mô tả kiến trúc data warehouse dạng cơ bản Trong kiến trúc này bao gồm các thành phần sau: data source, data warehouse, user

Hình 2.5 mô tả kiến trúc DW với staging area: thêm thành phần làm sạch và xử lý dữ liệu trước khi đưa vào data warehouse.

Hình 2 4: Kiến trúc DW cơ bản

Trang 26

Hình 2 5: Kiến trúc DW vớỉ DSA

(https ://docs oracle.com/cd/E 11882_01/server 112/e25554/concept.htm#DWHSG8071)

Hình 2.6 Kiến trúc DW với Staging Area và Data Mart: So với kiến trúc ừên có thêm data mart, dữ liệu được chuyển đổi và biểu diễn theo yêu cầu bởi một nhóm các người dùng đặc biệt.

Hình 2 6: Kiến trúc DW với DSA, DM

Trang 27

( https://docs.oracle.eom/cd/E11882_01/server.112/e25554/concept.htm#DWHSG8071 )

2.2.2 Thành phần trong Datawarehouse

• Data Source - Dữ liệu nguồn

Dữ liệu nguồn là đầu vào của toàn bộ hệ thống DW, bao gồm một danh sáchnguồn dữ liệu được lựa chọn để đưa vào hệ thống

Dữ liệu nguồn điển hình của DW là các CSDL tác nghiệp bên trong tổ chức, cungcấp số liệu chi tiết về các giao dịch phát sinh hàng ngày; các CSDL này có thểđược xây dựng trên các công nghệ khác nhau (Oracle, Microsoft SQL Server,DB2, )

Ngoài ra, dữ liệu nguồn cho DW cũng có thể ở dạng file - tập tin (text, xml,excel, ); hoặc có thể là dữ liệu nguồn bên ngoài tổ chức (CSDL của các tổ chứcliên kết, các cơ quan nhà nước, )

• Staging Area

Data Staging Area (DS A) là một tập các CSDL đóng vai trò trung chuyển dữ liệu giữacác nguồn dữ liệu với EM DSA là môi trường dữ liệu trung gian, lưu trữ tạm thời dữ liệu

để xử lý, làm sạch và tích hợp trước khi đưa vào EM

Đặc điểm dữ liệu tại DSA:

- Chỉ lưu trữ tạm thời của một phiên, khi xử lý xong thì xóa đi để chuẩn bị xử lý chophiên tiếp theo

- Có hai loại DSA:

+ DSAđích:

• Là CSDL có cấu trúc tương đương với EM (CSDL hình bông tuyết), là nơichứa dữliệu kết quảcuối cùng của giai đoạn xửlý, làm sạch và tích hợptrước khi đưa vào EM

• Chỉ có một DSA đích

+ DSA nguồn:

• Là CSDL có cấu trúc tương đương với dữ liệu nguồn (mô hình CSDL quan

hệ thông thường) và chứa dữ liệu nguyên bản của nguồn (sau đó mới xử lý,làm sạch)

• Có nhiều DSA nguồn: ứng với mỗi dữ liệu nguồn cần một DSA nguồn Cácbước thực hiện thiết kế DSA-Thiết kế DSA đích (dựa trên bản thiết kế EM

đã có):

• Siêu dữ liệu (Meta Data)

Trang 28

Metadata là lớp dữ liệu lưu trữ các thông tin mô tả về chính các thành phần của DW.Thực chất việc thiết kế metadata cho DW là thiết kế một CSDL quan hệ để lưu trữ cácloại dữ liệu sau:

- Cấu trúc và ý nghĩa của từng CSDL trong DW (dữ liệu nguồn, DSA, EM, DM): mô tả

về các bảng, các trường, ý nghĩa ngiệp vụ

- Quan hệ tham chiếu giữa các trường, bảng của các CSDL khác nhau

- Dữ liệu nghiệp vụ của người dùng: các measure, các dimension, các thuộc tính đi kèm(attribute), các phân cấp (hieararchy)

- Dữ liệu quản lý tiến trình ETL: dữ liệu về từng công đoạn chuyển đổi, các phiên thựchiện,

- Dữ liệu về tầng khai thác và phân tích thông tin: cấu trúc và ý nghĩa các đơn vị củalớp dữ liệu tham chiếu; danh mục các kết quả đầu ra (báo cáo, phân tích), danh sáchuser và quyền truy cập

Vai trò của metadata:

- Lưu trữ hình ảnh về toàn bộ thiết kế của hệ thống DW và BI, phục vụ việc tra cứuthông tin về hệ thống, bảo trì và mở rộng hệ thống

- Cung cấp các dữ liệu cơ sở (thông tin đầu vào) cho giai đoạn thiết kế vật lý: thiết kếvật lý các CSDL, tiến trình ETL, các công cụ quản trị và vận hành

• Cơ sở dữ liệu chủ đề Data Mart (DM)

Kho dữ liệu chủ đề (Data Mart - DM) là DW có những đặc điểm giống với DWnhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành Các

DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thểđược xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tíchhợp lại với nhau tạo thành kho dữ liệu Vì vậy có thể xây dựng kho dữ liệu bắt đầubằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo racác DM

Trang 29

DM là một DW thứ cấp các dữ liệu tích hợp của kho dữ liệu DM được hướng tớimột phần của dữ liệu thường được gọi là một vùng chủ đề (Subject Area-SA) được tạo

ra dành cho một nhóm người sử dụng Dữ liệu ưong DM cho thông tin về một chủ đềxác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra ưong một tổchức Thể hiện thường xuyên nhất của DM là một kho dữ liệu riêng rẽtrên phương diện vật lý và thường được lưu trữ trên một server riêng, trên một mạng cục bộ phục vụ cho một nhóm người nhất định

Hình 2.7 dưới đây là một ví dụ một Data Mart, trong đó có bảng sự kiện

DOANH-SO vói 2 measure là số lượng, doanh số và 4 bảng chiều dữ liệu là thời gian, cửa hàng, khách hàng, sản phẩm

Hình 2 7: Ví dụ CSDL chủ đề Data Mart DOANH SÔ

2.2.2 Thu thập, làm sạch và tích hợp dữ liệu (Extraction -Transformation -Loading -ETL)

ETL là tiến trình thu thập, làm sạch và tích hợp dữ liệu với mục đích đưa được các dữ liệu nguồn cần thiết vào DW theo đúng yêu cầu nghiệp vụ.

ETL vừa thực hiện việc xử lý dữ liệu vừa tạo ra dòng chảy của dữ liệu từ nguồn qua các thành phần khác nhau và đến đích (các DM), giúp cho dữ liệu của hệ thống DW được cập nhật định kỳ.

Trên thực tế, các tình huống chuyển đồi dữ liệu từ nguồn đến kho tập trung là rất đa dạng, phức tạp, và vì thế ETL cũng có thể rất đa dạng và phức tạp Dưới đây chỉ là một cách chia tách các công đoạn xử lý bên trong một tiến trình ETL, theo đó coi cả hệ thống DW chỉ

có một tiến trình ETL, và nó bao gồm các công đoạn xử lý sau:

FK.2 idQUíỊ hang NUMBER

FK3 id kha^h hang NUMBER

FK4 Id san pham NUMBER

NUMBER VARCHAR2(&>) NUMBER VARCHAR2(64j NUMBER

SAN_PHAM

PK id san Bham NUMBER ma_san_pfiam ! ftn_san_pham m^chungjoai ten_chun>g_toai

VARCHAR2I64) VARCHAR2(256) VARCHAR2(64) VARCHAR2(256)

Trang 30

- Thu thập dữ liệu (Extraction): là công đoạn khai thác và đưa dữ liệu từ các nguồn vào CSDL trung chuyển (các DSA nguồn), chưa xử lý gì đối với dữ liệu.

- Làm sạch và tích hợp (Transformation): là cộng đoạn phức tạp nhất, xử lý dữ liệu tại CSDL trung chuyển, các xử lý bao gồm:

+ Làm sạch: chuẩn hóa hoặc loại bỏ các dữ liệu không hợp lệ, không toàn vẹn

+ Tích hợp: tích hợp dữ liệu từ nhiều DSA nguồn về một DSA đích, tích hợp các bảng

dữ liệu tương đương nhau thành một bảng

- Loading (load dữ liệu): là công đoạn load dữ liệu đã được xử lý

2.2.3 CSDL đa chiều với OLAP

Nhìn chung, mục đích hướng đến của việc thiết kế DW là ra được các DM về mặtlogic, các DM được thiết kế theo ý tưởng đa chiều với các bảng danh mục (các chiều)xoay quanh bảng dữ liệu chi tiết về các giao dịch phát sinh; kiểu thiết kế này giúp đápứng nhanh và linh hoạt các nhu cầu thông tin đa dạng, đa chiều của người dùng Nhưng

về bản chất lưu trữ dữ liệu, DM vẫn là một tập các bảng dữ liệu quan hệ (các bảng với 2chiều dòng và cột), để đưa ra được các báo cáo đa chiều, cần thực hiện các câu lệnh truyvấn (SQL) để join các bảng với nhau

Để tạo sự thuận tiện và chủ động cho người dùng cuối, đồng thời tăng tốc độ đáp ứngcác nhu cầu thông tin, cần tạo thêm một lớp dữ liệu nữa ở dạng tính toán sẵn và gần gũihơn với nhu cầu thông tin của người dùng, lớp dữ liệu đó chính là OLAP

OLAP là tầng dữ liệu phía trên các DM, có cấu trúc lưu trữ đặc biệt (không sử dụngcác bảng quan hệ thông thường) để lưu trữ các dữ liệu đa chiều ở dạng tính toán sẵn, các

dữ liệu này rất gần với nhu cầu thông tin của người dùng

Với OLAP, người dùng chỉ cần chọn và lấy ra các thông tin mình cần (các dimension,các measure) để thực hiện việc báo cáo và phân tích vì các thông tin này đã được tínhtoán sẵn trong OLAP

OLAP được tổ chức thành các OLAP cube (Khối dữ liệu đa chiều), mỗi OLAP cubephục vụ một nhóm nhu cầu thông tin của người dùng Tương ứng với một chủ đề thôngtin (DM), có thể tạo ra nhiều OLAP cube Ngoài ra, tùy thuộc nhu cầu phân tích thông tin,cũng có thể tạo ra một OLAP cube từ các DM khác nhau

2.2.4 Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu

- Công cụ tạo báo cáo và câu hỏi truy van (Report):

Dễ sử dụng, các câu hỏi được xây dựng trước hoặc được người dùng tự tạo ra dưới dạngSQL dựa trên mô hình quan hệ Ket quả tạo ra dưới dạng báo cáo

- Công cụ phân tích trực tuyến (OLAP):

Trang 31

Tương đối khó sử dụng Người dùng thao tác với dữ liệu dưới dạng mô hình nhiều chiều(thường có chiều thời gian) Công cụ này cho phép phân tích dữliệu nhanh chóng, liêntục, lặp đi lặp lại, theo quá trình mịn dần.

- Công cụ phân tích, tìm kiếm cấp cao (Data Mining):

Dựa trên các nghiên cứu lĩnh vực trí tuệ nhân tạo Chúng giúp phát hiện những sụ kiện, hình mẫu, phụ thuộc dữ liệu truớc kia chua biết hoặc giúp chúng xây dụng những mô hình

dụ báo

2.3.CÁC NGHIÊN CỨU LIÊN QUAN

Trong quá trình làm luận văn, Tác giả có đọc một số các nghiên cứu liên quan đến đề tài của mình, để phục vụ công việc làm luận văn này Duời đây là một số các nghiên cứu liênquan:

2.3.1 Nghiên cứu thứ nhất:

- Tên đề tài: Data Warehouse và ứng dụng trong bài toán quản lý của hàng bán lẻ xăng dầu

- Tóm tắt về nghiên cứu này:

Phần 1: Trình bày lý thuyết chung về kho dữ liệu, phuơng pháp xây dụng thiết kế kho dữ liệu

Phần 2: Trình bày các công cụ xây dụng kho dũ liệu

- Hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2008

- SQL Server Integration Services (SSIS)

- SQL Server Analysis Services (SS AS)

- Ngôn ngữ truy vấn MDX

- SQL Server Reporting Service (SSRS)

Phần 3: Giới thiệu bài toán quản lý của hàng bán lẻ xăng dầu

- Đơn vị áp dụng: Tập đoàn xăng dầu Việt Nam (Petrolimex)

- Giới thiệu mô hình tổng thể của hệ thống CNTT tại tập đoàn

- Phân tách chức năng và dữ liệu giữa hệ thống trung tâm và các của hàng

Phần 4: Xây dụng Data Warehouse phục vụ cho công tác báo cáo

- Xây dụng 2 kho dữ liệu chủ đề: Kho dữ liệu hàng hóa, kho dữ liệu kế toán

- Sử dụng các công cụ để xây dụng CSDL và báo cáo

Trang 32

Chuơng 2: Cơ sơ lý thuyết

- Đánh giá tài liệu

- Định nghĩa

- Khái niệm về kho dữ liệu

- Phát triển kho dữ liệu

- Khái niệm về BI

- ONLINE TRANSACTIONAL PROCESSING (OLTP)

- Kiến trúc cấp cao của Data Warehouse và BI

- Khái niệm thiết kế Data Warehouse

Trang 33

CHƯƠNG 3: THựC TRẠNG cơ SỞ HẠ TẦNG CNTT VÀ QUY

TRÌNH NGHIỆP vụ BÁN HÀNG CỦA CÔNG TY

Chương này tác giả trình bày về thực trạng cơ sở hạ tầng công nghệ thông tin và quy trình nghiệp vụ bán hàng của công ty về hạ tầng công nghệ thông tin tác giả trình bày hạ tâng phần cứng và hệ thống phần mềm ứng dụng trong công việc sản xuất kinh doanh củacông ty

về quy trình nghiệp vụ bán hàng tác giả trình bày quy trình bán hàng theo đơn hàng

số lượng lớn và quy trình bán hàng lẻ

Cuối cùng để hiểu rõ hơn và chi tiết trong chương này, xin mời xem các nội dung bêndưới

Trang 35

- Máy chủ quản lý Email: Lưu trức các file Email

- Máy chủ quản lý Web:

- Máy chủ quản lý hệ thống AD, DNS, DHCP

- Các máy chủ cài đặt các phần mềm quản lý của công ty

- Máy chủ quản lý hệ thống BACKUP

Trong đó Data Center tại Long An gồm 4 máy chủ vật lý cùng các máy chủ ảo hóanằm ở trong các máy chủ vật lý này

• Hệ thống máy chủ tại Công Ty Mẹ TPHCM và Công Ty Con A Củ Chi quản lý hệthống Child Domain

3.1.2 Thiết bị lưu trữ NAS

• Hệ thống lưu trữ NAS tại Long An phục vụ lưu trữ các dữ liệu của công ty như(File, Database, Configure )

• Hệ thống lưu trữ NAS tại Công Ty Mẹ TPHCM và Công Ty Con A tại Củ Chi phục

vụ công tác lưu trữ dữ liệu backup tại DataCenter tại Long An

3.2 HỆ THỐNG PHẰN MỀM ỨNG DỤNG TRONG CÔNG VIỆC SẢN XUẤT KINH DOANH CỦA CÔNG TY

Nhằm phục vụ công việc sản xuất kinh doanh của tổng công ty, đến nay tổng công ty

đã triển khai một số phần mềm ứng dựng để đáp ứng công việc thường ngày như: Quản lýsản xuất, kinh doanh, kế toán, kho bãi

Một điểm cần lưu ý trong các phần mềm ứng dụng này là chúng hoạt động độc lập vớinhau, mỗi phần mềm có một cơ sở dũ liệu riêng biệt

Bảng 3.2 dưới đây là danh sách các hệ thống quản lý công ty đang sử dụng

STT rpA TT^ rr^i Ẩ

Tên Hệ Thông ĐVT

TRỤ SỞ CÔNG TY

Công Ty mẹ HCM

Công ty con A Long An

Công Ty con B Củ Chi

Trang 36

+ Bảo trì bảo dưỡng

- Hệ thống không có phân hệ quản lý Nhân Sư Tiền Lương

3.2.3 Phần mềm quản ly nhân sự tiền lương - nhà ăn.

- Phần mềm được triển khai cho toàn bộ từ công ty mẹ cho đến công ty con, trụ sởcủa công ty mẹ

- Phần mềm quản lý nhân sự, chấm công, tiền lương và quản lý phần ăn cho khoảng

1 Hệ điều hành máy chủ Windows Server 2016

Trang 37

2 Hệ điều hành máy trạm Windows 10 pro

3 Hệ quản trị cơ sở dũ liệu Microsoft SQL Server 2014 Standard Oracle

llg

4 Công cụ lập trình Microsoft Visual Studio 2015

5 Công nghệ giao tiếp Web Service, Net Remoting, Oracle

Bảng 3 3: Thực trạng công nghệ phần mềm quản lý

3.3 HỆ THỐNG BÁO CÁO CỦA CÔNG TY

Các báo cáo tổng hợp là những báo cáo được xây dựng ở cấp Tổng Công Ty cung cấpcác thông tin có tính chất phân tích, hỗ trợ quản lý điều hành Đối tượng người dùng củacác báo cáo này là: Lãnh đạo Tổng công ty, các ban của Tổng công ty, lãnh đạo các công

ty thành viên, về cơ bản, các báo cáo tổng hợp hiện nay đang được xây dựng theo cáchthủ công, những bước thực hiện chính bao gồm:

- Tập hợp số liệu báo cáo từ các đơn vị thành viên lấy từ các phần mềm Kế Toán

AL, ERP-SAP, Phần Mềm Nhân Sự

- Sau khi nhận đủ số liệu nguồn, cán bộ phụ trách thực hiện lập báo cáo bằng tay hênExcel, tính toán thủ công các chỉ tiêu thống kê, báo cáo Khi có số liệu mớicác cán

bộ phụ trách thực hiện lập báo cáo sẽ phải tính toán và lập lại báo cáo từ đầu

Trang 38

3.4 QUY TRÌNH NGHIỆP vụ BÁN HÀNG CỦA CÔNG TY

3.4.1 Quy trình bán hàng theo đon hàng

Bằng Mail, Tel, gặp trực tiếp

Phiếu YCTM-ĐM (BM2/0022 /QT- KD/2018) Phiếu Thông tin (BM1/0022 /QT- KD/2018)

Bằng Mail, Tel, gặp trực tiếp

Thư báo giá và ( tham chiếu QT: SD.01)

Bằng Mail, Tel, gặp trực tiếp

BPTG

Trang 40

Bảng 3 4 : Quy trình bán hàng theo đơn đặt hàng

30

Ngày đăng: 26/12/2019, 21:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Fon Silvers, Building and Maintaining a Data Warehouse, 2008 [2] w. H. Inmon, Building the Data Warehouse, Fourth Edition, 2005 Khác
[4] Nguyễn Quang Huy, DataWarehouse và ứng dụng trong bài toán quản lý cửa hàng bán lẻ xăng dầu, Luận văn thạc sĩ, Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội, 2012 Khác
[5] Trần Thị Giang, Xây dựng hệ thống Data Warehouse và Business Intelligence ứng dụng trong ngành bưu chính của Tổng công ty Bưu điện Việt Nam, Luận văn cao học, Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội, 2015 Khác
[6] Nguyễn Văn Trung, Thiết kế và triển khai kho dữ liệu khách hàng sử dụng dịch vụ viễn thông của Tổng Công ty Bưu chính Viễn thông Việt Nam, Luận văn thạc sĩ, Trường Đại HỌc Công Nghệ, 2008 Khác
[7] K.w. Chaua, Ying Caob, M. Anson, Jianping Zhang, Applications of a data warehousing integrated with a DSS in construction management, Hong Kong Polytechnic University, 2002 Khác
[8] Ralph Kimball, Margy Ross, The Data Warehouse Toolkit, Third Edition, 2013 [9] Gonnade, Prajwal Nayak, Supreet Rana, Vijaylakshmi, Design and Implementation of a Data Warehouse for a Retail Store with Store-level Data, Final Report, Texas A&M University, 2016 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w