- Thường được viết bằng tay, việc thu thập dữ liệu khó khăn - Cồng kềnh, kém hiệu quả - Tốn thời gian và chi phí duy trì cao - Dữ liệu thường thiếu chính xác, thiếu cập nhật và khó khăn
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ- LUẬT KHOA QUẢN TRỊ KINH DOANH MÔN QUẢN TRỊ HỆ THỐNG THÔNG TIN
Trang 2DANH SÁCH NHÓM 7&8 – K10407A
5 Trương Đào Trọng Tín K104071136
Trang 3MỤC LỤC
A LÝ THUYẾT 1
1 Phương pháp tiếp cận cơ sở dữ liệu để quản lý dữ liệu 1
1.1 Các khái niệm 1
1.2 Hạn chế của Cơ sở dữ liệu truyền thống 1
1.3 Cơ sở dữ liệu quan hệ (Relational Database) 2
2 Hệ thống quản trị cơ sở dữ liệu (DBMS) 7
2.1 Định nghĩa 7
2.2 Hoạt động của DBMS 8
2.3 Chức năng của DBMS 10
2.4 Cơ sở dữ liệu hướng đối tượng 12
3 Sử dụng cơ sở dữ liệu để cải tiến hiệu suất kinh doanh và ra quyết định 13
3.1 Kho dữ liệu (Data warehouses) 13
3.2 BI (Business Intelligence) 17
3.3 Khai thác dữ liệu (Data Mining) 18
3.4 Dữ liệu và Web 20
4 Quản lý nguồn tài nguyên dữ liệu 21
4.1 Thiết lập một chính sách thông tin 22
4.2 Đảm bảo chất lượng nguồn dữ liệu 22
B GIẢI QUYẾT TÌNH HUỐNG (CASE STUDY) 25
1 Case Study 1: THE IRS Uncovers Tax Fraud with a Data Warehouse 25
1.1 Tóm tắt tình huống 25
1.2 Giải quyết tình huống 26
Trang 42 Case Study 2: BUSINESS PROBLEM-SOLVING CASE – Trouble with the Terrorist Watch-List Database 28
2.1 Tóm tắt tình huống 28 2.2 Giải quyết tình huống 29
Trang 51.1.1 Cơ sở dữ liệu (Database)
- Là một tập các mẩu tin có mối quan hệ với nhau được ghi lại một cách cụ
thể về con người, nơi chốn hay một thứ gì đó Nói ngắn gọn Cơ sở dữ liệu
là một tập hợp thông tin có cấu trúc.
- VD: Danh bạ điện thoại là một cơ sở dữ liệu mà con người đã thu thập
được Trong danh bạ, chứa thông tin người sử dụng: họ, tên, địa chỉ, sốđiện thoại Với danh bạ điện thoại của một công ty thì chứa những thôngtin của các đơn vị kinh doanh và loại hình kinh doanh; thông tin về kháchhàng, loại hình doanh nghiệp, mã vùng, vị trí địa lí
1.1.2 Đối tượng (Entity)
- Là đối tượng (người, vật hoặc đồ vật) đại diện cho một loại thông tin, như:
khách hàng, nhà cung cấp, nhân viên …
1.1.3 Thuộc tính (Attributes)
- Mỗi đối tượng (entity) có những đặc điểm, tính chất riêng biệt, gọi là thuộc tính (attributes) của đối tượng đó.
- VD: Entity SUPPLIER có các attributes đại diện là Tên nhà cung cấp, địa
chỉ của nhà cung cấp đó bao gồm tên đường, quận, thành phố, mã bưuđiện
1.2 Hạn chế của Cơ sở dữ liệu truyền thống
Trước các loại hình cơ sở dữ liệu số hiện đại như ngày nay, các doanh nghiệpthường làm việc và lưu trữ thông tin bằng các hồ sơ giấy Các thông tin, dữ liệu của
Trang 6doanh nghiệp được lưu trữ ở nhiều phòng ban và thiếu sự liên kết, thống nhất với nhau.
Vì vậy, tổ chức dữ liệu theo cách truyền thống này có rất nhiều hạn chế
- Thường được viết bằng tay, việc thu thập dữ liệu khó khăn
- Cồng kềnh, kém hiệu quả
- Tốn thời gian và chi phí duy trì cao
- Dữ liệu thường thiếu chính xác, thiếu cập nhật và khó khăn trong việc truy
cập hay chia sẻ dữ liệu kịp thời
- Thiếu tính bảo mật
1.3 Cơ sở dữ liệu quan hệ (Relational Database)
Đối với cơ sở dữ liệu số, việc tìm kiếm thông tin rất dễ dàng, nhanh chóng bằngviệc tạo liên kết giữa dữ liệu này với những dữ liệu khác có liên quan Thông qua đó,
đảm bảo tính chính xác, thống nhất và tính cập nhật cho dữ liệu Khái niệm cơ sở dữ liệu
quan hệ (Relational Database) ra đời từ đó.
1.3.1 Đặc điểm
- Tổ chức dữ liệu theo 2 chiều là dòng và cột dưới dạng bảng Mỗi bảng duy
trì dữ liệu cho một Entity và các Attributes đại diện cho entity đó
- Mỗi bảng đại diện cho 1 Entity, như là: Khách hàng, Nhà cung cấp …
1.3.2 Thành phần
- Trường (Fields): lưu trữ dữ liệu dưới dạng cột (Column), đại diện cho một
Attribute của entity
- Khóa chính (Primary Key): là một field nằm trong mỗi bảng, không chứa
các giá trị trùng lắp giữa các thực thể với nhau Vì vậy, được dùng để phânbiệt các thực thể với nhau trong cùng 1 bảng
- Bản ghi (Records, Tuples): lưu trữ dữ liệu dưới dạng dòng (Row), là tập
hợp các attributes của từng thực thể nằm trong entity đang xétSau đây, hãy cùng xem xét một ví dụ về một đối tượng là SUPPLIER (Nhàcung cấp) để phân tích đâu là các thuộc tính của đối tượng này Những thông tinliên quan đến đối tượng được lưu trữ dưới dạng Table 2 chiều là dòng và cột nhưthế nào
Trang 7Table SUPPLIER
- Bảng SUPPLIER bao gồm các cột và dòng Mỗi yếu tố gồm dữ liệu về nhà
cung cấp, như: tên nhà cung cấp, đường, thành phố, bang, mã vùng, đượclưu trữ ở những field riêng biệt Mỗi feild đại diện là một attribute củaEntity SUPPLIER
- Thông tin của các nhà cung cấp nằm trong bảng được gọi là “row”.
- Khóa chính của bảng là trường Supplier_Number Khóa chính này giúp
nhận diện tất cả các thông tin ở bất kì dòng nào trong bảng Và khóa chínhkhông thể trùng lặp
- Ngoài ra, chúng ta cũng có thể sử dụng tên của nhà cung cấp – Supplier_Name làm khóa chính Tuy nhiên, nếu có hai nhà cung cấp có
cùng tên thì trường tên của nhà cung cấp sẽ không còn là duy nhất, vì vậy,cần thiết phải gán một trường nhận diện đặc biệt cho mỗi mục đích khácnhau Ví dụ, nếu bạn có 2 nhà cung cấp, cả 2 đều có tên là CBM, nhưngmột cái có cơ sở ở Dayton và cái còn lại ở Louis , nó rất dễ dàng gây nhầmlẫn Tuy nhiên nếu có một số thứ tự nhà cung cấp duy nhất, sự nhầm lẫn là
có thể tránh
- Chúng ta cũng có thể nhận thấy rằng thông tin địa chỉ cũng được tách biệt
thành 4 trường: Supplier_street, Supplier_city, Supplier_state và
Trang 8truy cập riêng biệt, dễ dàng lựa chọn một dòng trong bảng nhằm nối vớimột nội dung trong một trường; ví dụ khi muốn tìm tất cả các nhà cung cấptại Ohio Mỗi dòng dữ liệu cũng có thể được sắp xếp bởi nội dung của
trường Supplier_state để lấy danh sách các nhà cung cấp thuộc bang gần
với chỗ của họ
Mặt khác, SUPPLIER không có bất kì thông tin nào về những phần mà nhàcung cấp riêng lẻ cung cấp cho công ty của họ Chính vì vậy người ta sẽ lập thêmtable PART là entity riêng biệt từ SUPPLIER, và các trường với những thông tin
về từng phần phải được lưu trữ trong bảng này
- PART có thể chứa các trường có chứa ở bảng SUPPLIER, có thể không cần
giữ những thông tin về nhà cung cấp tại mỗi bản ghi trong mỗi Part vì có
trường Supplier_number trong bảng PART cho phép bạn tìm kiếm dữ liệu trong trường của bảng SUPPLIER, tức là Supplier_Number sẽ có trong 2
bảng SUPPLIER và PART
- Supplier_number xuất hiện trong bảng PART được gọi là foreigner key
và nó cần thiết để tìm kiếm dữ liệu về nhà cung cấp trong một phần đặc
biệt PART có khóa chính là Part_number, để nhận diện mỗi phần Khóa
Trang 9này không được sử dụng để liên kết PART với SUPPLIER nhưng có thể để liên kết PART với một entity khác.
- Lưu ý: Phải chắc chắn rằng tất cả các attributes của mỗi entity riêng biệt
đăng kí đến 1 entity Nếu bạn đã giữ địa chỉ của nhà cung cấp trong bản ghiPART, thông tin đó không chỉ có mối liên hệ với PART, nó còn liên hệ với
cả SUPPLIER Nếu địa chỉ nhà cung cấp đã thay đổi, nó sẽ thay đổi dữ liệu của SUPPLIER và tất cả các bản ghi trong PART
1.3.3 Tạo liên kết
Sơ đồ liên kết thực thể (Entity-Relationship Diagram)
- Khi chúng ta phân dữ liệu thành các bảng SUPPLIER và PART thì phải
chắc chắn là chúng ta biết mối quan hệ giữa chúng Sơ đồ quan hệ này được
gọi là Sơ đồ liên kết thực thể (Entity-Relationship Diagram)
- Sơ đồ liên kết này được sử dụng để gạn lọc các bảng có mối quan hệ với
nhau trong dữ liệu Phần thông tin được cung cấp quan trọng nhất bởi sơ đồnày là 2 bảng có liên quan với nhau
- Các loại quan hệ giữa các bảng là: Một-một (One-to-one), Một-nhiều (One-to-many), Nhiều-nhiều (Many-to-many)
Mối quan hệ giữa SUPPLIER và PART trong dữ liệu là quan hệ Một-nhiều,mỗi nhà cung cấp có thể cung cấp nhiều phần nhưng 1 phần chỉ có 1 nhà cung
cấp Với mỗi thực thể trong bảng SUPPLIER, có thể có bản ghi liên quan
Trang 10đó, ta thấy mỗi PART chỉ có một SUPPLIER, nhưng một SUPPLIER có thểcung cấp được nhiều PART.
Chúng ta cũng thấy mối quan hệ Một-nhiều nếu thêm 1 bảng ORDER (Đơnhàng) vào dữ liệu; vì 1 SUPPLIER sẽ có nhiều ORDER Nội dung của bảngORDER bao gồm: Mã số order và Ngày order
Một ORDER có thể có nhiều sản phẩm (PART) từ cùng một SUPPLIER,một sản phẩm có thể được đặt nhiều lần với nhiều đơn đặt hàng khác nhau; đây
là mối quan hệ Nhiều-Nhiều giữa sản phẩm và đơn đặt hàng Bất cứ khi nào cóquan hệ này tồn tại giữa 2 bảng thì nó đều cần thiết để liên kết giữa 2 bảng có
dữ liệu liên quan Việc tạo 1 bảng riêng để chứa các thông tin quan hệ giữacác bảng gọi là bảng nối hay quan hệ tương tác Nội dung của bảng nối nàygồm 3 trường: Order_Number, Part_Number và Part_Quantity
Tiêu chuẩn hóa (Normalization)
- Quá trình giảm bớt sự phức tạp, trùng lắp dữ liệu giữa các bảng gọi là tiêu chuẩn hóa Những thông tin được thiết kế 1 cách hợp lý và bình thường sẽ
dễ dàng để duy trì với tỷ lệ trùng lắp thông tin bé nhất
Tính toàn vẹn (Referential Integrity)
- Hệ thống quan hệ dữ liệu phải có tính liên quan, toàn vẹn để đảm bảo rằng
mối quan hệ giữa 2 bảng phải thống nhất với nhau
- Trong những doanh nghiệp nhỏ, bạn sẽ có nhiều bảng với nhiều thực thể
khác nhau như khách hàng, nhà vận chuyển, nhân viên và mỗi tập đoàn lớn
sẽ có hàng ngàn thực thể để duy trì Điều quan trọng đối với bất cứ công tynào dù lớn hay nhỏ là phải có mô hình dữ liệu tốt bao gồm tất cả các chủthể và mối quan hệ giữa chúng, tối thiểu hóa sự trùng lắp dư thừa, tối đa sựchính xác, để dễ dàng cho việc đánh giá và phân tích
Trang 11Nếu công ty không có mô hình dữ liệu đúng thì hệ thống dữ liệu sẽ không thểđáp ứng cho việc kinh doanh tốt được Việc kinh doanh của công ty sẽ không cóhiệu quả vì đang phải làm việc với dữ liệu không chính xác, không hợp lý Hiểuđược cách tổ chức dữ liệu và cách trình bày dữ liệu là những phần quan trọng màcác doanh nghiệp cần phải chú ý.
Ví dụ, Famous Footwear, có hơn 800 cửa hàng ở 49 nước, có thể không đạtđược mục tiêu “ đúng style ở đúng cửa hàng với đúng giá” vì hệ thống dữ liệuthiết kế không hợp lý để điều chỉnh nhanh hàng tồn kho Công ty có một hệ dữliệu Oracle chạy trên máy tính trung bình IBM AS/400, nhưng hệ dữ liệu dc thiết
kế chủ yếu để cung cấp báo cáo cho người quản lý hơn là để phản ứng với nhữngthay đổi thị trường Nhà quản lý không thể có được dữ liệu rõ ràng về hàng tồnkho ở mỗi cửa hàng Công ty phải giải quyết vấn đề này bằng việc xây dựng hệ dữliệu mới để bán hàng và dữ liệu tồn kho được tổ chức tốt hơn cho việc phân tích và
- Giải phóng người dùng khỏi phải suy nghĩ về việc: trình bày dữ liệu sao cho hợp
lý (logical views) và cấu trúc , lưu trữ dữ liệu sao cho hiệu quả (physical views)
- Ví dụ:
Microsoft Access là DBMS cho máy tính cá nhân
Trong khi DB2, Orecle database, Microsoft SQL server là DBMS cho máytính cỡ lớn (Midrange computer), siêu máy tính (large mainframes)
Các dạng DBMS trên đều là Relational DBMS hỗ trợ cho relationaldatabase
Trang 12- Minh họa DBMS bằng Cơ sở dữ liệu của phòng Nhân sự
Cơ sở dữ liệu của phòng HR cung cấp nhiều loại dữ liệu, tùy thuộc vào yêucầu thông tin của người sử dụng Ví dụ như, Giám đốc quan tâm đến việctrả lương cho nhân viên
DBMS sẽ trích ra các thông tin cần thiết từ cơ sở dữ liệu (Name, SSN,Gross pay, Net pay) Logical view, và thời gian xử lý của DBMS diễn ranhanh chóng Physical views
2.2 Hoạt động của DBMS
Gồm có 3 hoạt động chính là: Select (Lựa chọn), Join (Kết nối) và Project
(Xuất) dữ liệu Những hoạt động này của DBMS đã cho phép các dữ liệu từ 2 bảng
khác nhau có thể được kết nối lại và chỉ những thuộc tính lựa chọn mới được hiển thị
- Select (Lựa chọn): tạo ra 1 tập con bao gồm tất cả các bản ghi trong bảng lưu trữ
mà đáp ứng các tiêu chí đặt ra
- Join (Kết nối): Kết nối các bảng liên quan nhằm cung cấp đầy đủ thông tin về đối
tượng
Trang 13- Project (Xuất): Tạo 1 bảng mới chứa các dữ liệu mà người dùng yêu cầu
Minh họa bằng sơ đồ quan hệ giữa 2 bảng PART và SUPPLIER, ta có thể phân tích hoạt động của DBMS như sau:
Select Bản ghi của PART 137, 150
Join Kết nối Part 137, 150 trong bảng PART với Suplier liên quan trong bảng SUPPLIER
Project Trình bày thông tin của Part 137 và 150 từ bảng PART và SUPPLIER dưới một bảng
khác
Trang 142.3 Chức năng của DBMS
Hệ quản trị cơ sở dữ liệu (DBMS) có những chức năng và công cụ để tổ chức,
quản lý và truy cập dữ liệu Những nhiệm vụ quan trọng nhất của nó là, khả năng
định nghĩa dữ liệu, từ điển dữ liệu và ngôn ngữ sửa đổi dữ liệu.
- Data Definition (Định nghĩa dữ liệu): Chỉ ra cấu trúc của cơ sở dữ liệu Cụ thể
là, tạo bảng cơ sở dữ liệu rồi xác định các đặc tính của từng cột
- Data Dictionary (Từ điển dữ liệu): Đây là nơi lưu trữ các thông tin dữ liệu bao
gồm thành phần và đặc điểm của dữ liệu đó
Ví dụ:
+ Microsoft Access có một bộ từ điển dữ liệu sơ cấp cho phép hiển thị
thông tin dưới nhiều kích cỡ, định dạng và những đặc tính khác của một trường trong cơ sở dữ liệu
+ Hình ảnh bên dưới cho thấy thông tin được lưu trữ trong bảng
SUPPLIER Biểu tượng nhỏ phía góc trái của trường Supplier_Number là
khóa chính của bảng
Trang 15- Data Manipulation Language (Ngôn ngữ sửa đổi dữ liệu): Mỗi DBMS có 1
ngôn ngữ riêng được dùng để thêm, thay đổi, xóa, tìm kiếm hay giải nén dữ liệu từ
cơ sở dữ liệu Ngôn ngữ thông dụng hiện nay là SQL (Structured query language
– Ngôn ngữ truy vấn có cấu trúc)
SQL (Ngôn ngữ truy vấn có cấu trúc)
Trang 16Một Truy vấn (Query) trong Microsoft Access
2.4 Cơ sở dữ liệu hướng đối tượng
Rất nhiều ứng dụng ngày nay yêu cầu một cơ sở dữ liệu có thể lưu trữ và kết xuấtđược không chỉ những dữ liệu được cấu trúc hóa từ con số, mà còn những bản vẽ,những hình ảnh, âm thanh hay video …
Vì vậy, cơ sở dữ liệu hướng đối tượng ra đời (OOD – Object-Oriented Database):
- Lưu trữ, tìm kiếm được dữ liệu dạng liên kết (relational database) và dữ liệu dạng
đa phương tiện (multimedia: drawing, video, voice…)
- Lưu trữ dữ liệu và quá trình dưới dạng 1 đôi tượng (bao gồm: biến và hàm thực
hiện) có thể được tự động tìm kiếm và chia sẻ
OODBMS (Object-oriented Database Management System) đang được sử
dụng phổ biến rộng rãi bởi khả năng xử lý với đa dạng thông tin Tuy vậy, tốc độ xử
lý của OODBMS có phần chậm hơn so với relational DBMS Do đó, ra đời hệ thống
Object – Relational DBMS nâng cao hơn hiệu quả sử dụng.
Trang 173 Sử dụng cơ sở dữ liệu để cải tiến hiệu suất kinh doanh và ra quyết định
Doanh nghiệp sử dụng cơ sở dữ liệu của họ nhằm:
- Theo dõi các giao dịch cơ bản
- Cung cấp thông tin sẽ giúp các công ty điều hành kinh doanh hiệu quả hơn
- Giúp các nhà quản lý và nhân viên đưa ra quyết định tốt hơn
Hiện nay, đã có rất nhiều phần mềm cung cấp cho người sử dụngnhững khả năng truy vấn và lập các báo cáo thông tin, đặc biệt là các hệquản trị cơ sở dữ liệu quan hệ Tuy nhiên, sử dụng các hệ thống này, chúng
ta sẽ gặp rất nhiều khó khăn và bất tiện trong việc tổ chức dữ liệu đa chiềuvào các bảng hai chiều, không thể triển khai dữ liệu phân tích với số lượnglớn, công cụ phân tích để tạo ra các dữ liệu quyết định không mạnh, khôngthuận tiện, linh hoạt, và nhất là không dễ dàng để sử dụng đối với các nhàquản lý, những người ra quyết định
Để có khả năng cung cấp những dữ liệu quyết định cho những người
ra quyết định, cần sử dụng một cách lưu trữ dữ liệu cho phép họ quản lý,khai thác dữ liệu dễ dàng hơn Cách lưu trữ dữ liệu này là kho dữ liệu
(Data Warehouses).
3.1 Kho dữ liệu (Data warehouses)
3.1.1 Khái niệm
- Là một cơ sở dữ liệu được thiết kế để trả lời các câu hỏi của doanh nghiệp.
Nó là nơi chứa nhiều loại dữ liệu doanh nghiệp từ các nguồn khác nhau(các hệ thống xử lý tác vụ)
- Dữ liệu từ những nguồn này được chuyển dịch vào trong kho dữ liệu, được
đánh chỉ mục, và được kết nối lại để có thể được truy xuất nhanh chóng và
dễ dàng hơn, phục vụ cho các ứng dụng trợ giúp ra quyết định
Trang 18Vậy vì sao cần sử dụng Data Warehouse?
- Thông tin trong kho dữ liệu sẽ được tổng hợp và chuẩn hóa dựa trên cơ sở dữ liệu
từ nhiều nguồn khác nhau Data Warehouse
- Thông tin này sẽ được rút trích (extract), chuyển đổi (transform và nạp (load) ở
DW
- Sau đó, các dữ liệu ở đây sẽ được khai thác sử dụng nhằm phục vụ cho việc ra
quyết định cho quản lý cấp trung, từ đó mới đưa lên cấp trên cao hơn
3.1.2 Cách hoạt động
- Thông tin trong kho dữ liệu sẽ được tổng hợp và chuẩn hóa dựa trên cơ sở
dữ liệu từ nhiều nguồn khác nhau để đưa ra thông tin phục vụ việc phântích và ra quyết định
Data Sources
End User (HR,
SD,
MM
…)