Bài 5 - Tổ chức dữ liệu và thông tin gồm có những nội dung cụ thể sau: quản lý dữ liệu, hệ thống dữ liệu; các thực thể dữ liệu, thuộc tính, khoá; mô hình hóa dữ liệu; mô hình cơ sở dữ liệu - mô hình quan hệ;.... Mời các bạn cùng tham khảo.
Trang 1Organizing Data and Information
Trang 2Giới thiệu
• Nguyên nhân gây thất bại trong cơng việc kinh doanh hiện đại là cĩ quá nhiều dữ liệu nhưng khơng đủ
thơng tin
• Máy tính hiện nay cĩ ở mọi nơi, lưu trữ hàng
gigabytes dữ liệu, nhưng đồng thời gây khĩ khăn hơn trong việc rút ra những điều quan trọng trong hàng
đống con số, sự kiện, những thống kê
• Giống như các thành phần khác của hệ thống thơng tin, nhiệm vụ của một cơ sở dữ liệu là giúp tổ chức
đạt được mục đích của mình Một cơ sở dữ liệu cĩ
thể đem lại thành cơng cho tổ chức bằng nhiều cách, bao gồm khả năng cung cấp cho nhà quản lý, người
ra quyết định thơng tin kịp thời, chính xác, thích hợp dựa trên các dữ liệu
Trang 3Giới thiệu
• Một cơ sở dữ liệu có thể đem lại thành công cho tổ
chức bằng nhiều cách, bao gồm khả năng cung cấp cho nhà quản lý, người ra quyết định thông tin kịp thời, chính xác, thích hợp dựa trên các dữ liệu. Cơ sở dữ liệu còn giúp các công ty có thông tin để hạ chi phí,
tăng doanh thu, theo dõi các hoạt động kinh doanh, có
cơ hội khai phá thị trường mới Thật vậy, khác biệt
giữa kẻ thắng, người thua trong thương trường cạnh tranh cao độ là khả năng thu thập dữ liệu, phân tích,
và hành động nhanh chóng
• Vì dữ liệu có tính quyết định đến thành công của tổ
chức, nhiều doanh nghiệp phát triển cơ sở dữ liệu để truy cập dữ liệu và sử dụng chúng một cách có hiệu quả hơn
Trang 4khiển cơ sở dữ liệu và cung cấp giao diện giữa cơ sở
dữ liệu và người dùng và các chương trình ứng dụng khác Một cơ sở dữ liệu, một DBMS, và các chương trình ứng dụng cơ sở dữ liệu tạo nên môi trường cơ sở
dữ liệu Hiểu rõ các khái niệm cơ bản của hệ thống cơ
sở dữ liệu giúp tăng cường khả năng sử dụng sức
mạnh hệ thống cơ sở dữ liệu được vi tính hóa để hỗ
Trang 5I- Quản lý dữ liệu
• Nếu thiếu dữ liệu và khả năng xử lý các dữ liệu nầy, một tổ chức không thể thực hiện thành
công hầu hết các hoạt động kinh doanh.
• Dữ liệu chỉ bao gồm những sự kiện thô như số nhân viên, doanh số bán hàng … Để dữ liệu
chuyển thành thông tin hữu dụng, nó phải được
tổ chức một cách có ý nghĩa
Trang 6I- Quản lý dữ liệu - Hệ thống dữ liệu
• Ký tự (character) đơn vị cơ bản để xây dựng thông tin, bao
gồm chữ hoa, chữ thường, con số, hay các ký tự đặc biệt khác (như ! ; +; / …) Các ký tự hợp lại thành trường.
• Trường (field): đặc trưng bởi một cái tên, con số, hay các từ
ngữ miêu tả một bộ phận của một đối tượng hay một hoạt động kinh doanh.
• Mẩu tin (record): tập hợp các trường có liên hệ với nhau
Tổng hợp các trường miêu tả các bộ phận, ta được một đối
tượng hay hoạt động kinh doanh hoàn chỉnh VD, một mẩu tin
về nhân công được tổng hợp từ các trường về một nhân công như họ, tên, địa chỉ, bộ phận, tiền lương …
• Tập tin (file): là tập hợp các mẩu tin có liên hệ với nhau VD
tập tin về nhân viên là tập hợp của các mẩu tin về nhân viên
trong công ty Các phần mềm cơ sở dữ liệu thường biểu diễn
tập tin bằng một bảng.
• Cơ sở dữ liệu (database): tập hợp các tập tin có liên quan
Trang 7I- Quản lý dữ liệu
Trang 82- Các thực thể dữ liệu, thuộc tính, khoá
• Thực thể (entity) biểu hiện một lớp khái quát các đối tượng
con người, nơi chốn hay sự vật mà các dữ liệu thu thập, lưu trữ
và bảo trì.
• Thuộc tính (attribute) biểu hiện một phần đặc trưng của thực
thể VD: mã nhân viên, tên, họ, bộ phận … là các thuộc tính
của nhân viên Giá trị cụ thể của một thuộc tính gọi là data
item, chứa trong các trường của mẩu tin thể hiện một thực thể.
• Khóa (key): là một trường hay một nhóm trường dùng để nhận
biết mẩu tin Khóa chính (primary key) là một hay một nhóm
trường đặc biệt của mẩu tin, không mẩu tin nào khác có được, dùng để phân biệt các mẩu tin (VD mỗi nhân viên chỉ có duy
nhất một mã số, không ai giống ai).
• Khi xác định mẩu tin cụ thể có nhiều tiêu chuẩn phân biệt, ta
có thể dùng kết hợp các khóa phụ (secondary key) VD khi
tìm một SV nhưng không biết khóa chính (mã số SV), ta có thể tìm theo một khóa phụ như lớp, rồi từ đó, kiểm tra các khóa
Trang 9Các thực thể dữ liệu, thuộc tính, khoá
Trang 10Cách tiếp cận theo Truyền thống
• Phương pháp quản lý dữ liệu truyền thống là cách tiếp cận các tập tin dữ liệu riêng biệt được thiết lập và lưu trữ cho từng chương trình ứng dụng Ví dụ, các mẩu tin về khách hàng được giữ trong các tập tin khác
nhau, mỗi tập tin dùng cho một hoạt động riêng như giao hàng, lập hóa đơn …
• Khuyết điểm
- Dư thừa dữ liệu (Không toàn vẹn dữ liệu)
- Mỗi ứng dụng phụ thuộc một chương trình
riêng, một dữ liệu riêng
Trang 11Cách tiếp cận theo Cơ sở dữ liệu
• Phương pháp quản lý dữ liệu theo CSDL là cách tiếp cận khối dữ liệu có liên quan nhau, được chia xẻ sử dụng bởi nhiều chương trình ứng dụng.
• Ưu điểm
Nâng cao giá trị khối dữ liệu: dữ liệu chính xác, đầy đủ, cập nhật
Giảm dữ liệu dư thừa : Cải thiện tính toàn vẹn dữ liệu:
Dễ dàng chỉnh sửa và cập nhật: Vì không động chạm đến CT
Dữ liệu và chương trình độc lập nhau:
Truy cập dữ liệu và thông tin tốt hơn : Chuẩn hóa cách truy cập dữ
liệu: Tạo ra một khuôn mẫu để phát triển chương trình chương
trình phải thông qua các DBMS để lấy dữ liệu nên chuẩn hóa phương thức truy cập cơ.
Bảo vệ dữ liệu tốt hơn Các đoạn mã bảo mật và mật khẩu đảm bảo rằng chỉ những người được phép mới được truy cập
Chia sẻ tài nguyên dữ liệu và thông tin Chi phí phần cứng, phần mềm, nhân sự có thể trải rộng ra cho các ứng dụng và người dùng Đây là đặc điểm quan trọng của DBMS
Trang 12Cách tiếp cận theo Cơ sở dữ liệu
Khuyết điểm
• Chi phí mua và vận hành DBMS trên máy chủ cao
• Tăng chi phí chuyên gia Để thi hành và phối hợp
CSDL cần thêm chuyên gia và nhân sự Tuy nhiên, một số tổ chức đã áp dụng phương pháp CSDL mà không thêm nhân sự
• Gia tăng nguy hiểm Mặc dù CSDL có thể được bảo mật tốt hơn nhờ vào các mức độ bảo mật tập trung trong một hệ thống, nhưng dữ liệu dễ bị truy cập bởi tội phạm một khi các biện pháp bảo mật bị xâm hại Thêm vào đó, vì một lý do nào đó mà DBMS bị lỗi, điều này sẽ làm ành hưởng đến nhiều chương trình ứng dụng
Trang 13II/ MÔ HÌNH HÓA DỮ LIỆU VÀ MÔ HÌNH CSDL
Khi xây dựng một CSDL một tổ chức cần xem xét cẩn thận những câu hỏi sau:
• Nội dung: Những dữ liệu nào cần thu thập và giá bao nhiêu ?
• Truy cập: Những dữ liệu nào phục vụ ai và khi nào ?
• Cấu trúc luận lý: Dữ liệu được sắp xếp ra sao để có
ý nghĩa đối với người dùng ?
• Cấu tạo vật lý: Vị trí lưu trữ dữ liệu ở đâu?
Trang 14II/ MÔ HÌNH HÓA DỮ LIỆU
Chìa khóa quan trọng trong việc tổ chức dữ liệu của một CSDL bao gồm:
• Những dữ liệu nào được tập hợp trong CSDL.
• Ai sẽ sử dụng.
• Mục đích sử dụng dữ liệu.
Trang 15II/ MÔ HÌNH HÓA DỮ LIỆU
Xây dựng một CSDL đòi hỏi hai loại thiết kế khác nhau: thiết kế luận lý & thiết kế vật lý
Thiết kế luận lý một CSDL tạo ra một mô hình trừu
tượng, dữ liệu được tổ chức sắp xếp như thế nào để
dễ dàng tìm thấy những thông tin cần thiết
Thiết kế luận lý của một CSDL bao gồm:
- Nhận biết các mối quan hệ giữa những dữ liệu khác nhau và nhóm chúng theo thứ tự
- Bởi vì CSDL cung cấp cả đầu vào và đầu ra cho hệ
thống thông tin trong suốt công ty, người dùng từ
những khu vực chức năng khác nhau nên những
người nầy cần hỗ trợ việc thiết kế luận lý để đảm bảo nhu cầu của họ được đáp ứng
Trang 16II/ MÔ HÌNH HÓA DỮ LIỆU
Một trong những công cụ nhà thiết kế CSDL dùng để chỉ
ra mối quan hệ luận lý giữa các dữ liệu là mô hình dữ liệu Đó là một biểu đồ các thực thể và mối quan hệ
giữa chúng Việc mô hình hóa dữ liệu bao gồm việc nhận thức được một vấn đề cụ thể và phân tích dữ
Trang 17II/ MÔ HÌNH CƠ SỞ DỮ LIỆU
Cấu trúc của những mối quan hệ trong hầu hết những CSDL thường là một trong ba mô hình sau:
Cây phân cấp (Hierarchical Models)
Mạng (Network Model)
Quan hệ (Relational Model)
Hầu hết CSDL mới đều được xây dựng theo mô hình
quan hệ
Trang 18II/ MÔ HÌNH CƠ SỞ DỮ LIỆU – Mô hình cây phân cấp
Trong mô hình cây phân cấp, dữ liệu được tổ chức theo
cấu trúc từ trên xuống Mô hình cây phân cấp được áp
dụng trong những trường hợp mối quan hệ luận lý
giữa các dữ liệu có thể diễn tả theo cách tiếp cận nhiều
Trang 19một-II/ MÔ HÌNH CƠ SỞ DỮ LIỆU – Mô hình mạng
Mô hình mạng là mô hình cây phân cấp mở rộng Mô hình mạng là kiểu quan hệ chủ-thành viên (owner-
member), trong đó mỗi thành viên có thể có nhiều chủ
Trang 20II/ MÔ HÌNH CƠ SỞ DỮ LIỆU – Mô hình quan hệ
• Trong một CSDL được tổ chức theo mô hình quan hệ,
dữ liệu được đặt trong các bảng hai chiều gọi là các mối quan hệ, tương đương các tập tin Các bảng tổ
chức dữ liệu theo hàng và cột, đơn giản hóa việc truy cập và thao tác trên dữ liệu
• Trong một bảng, mỗi hàng là một thực thể, mỗi cột là một thuộc tính Mỗi thuộc tính đều có giá trị cụ thể,
nằm trong một miền giá trị (domain) Khai báo rõ
miền giá trị sẽ giúp dữ liệu được chính xác hơn
• Ưu : dễ điều khiển, linh động, trực quan
Được dùng rộng rãi cho các CSDL lớn, trên các máy
Trang 21Ví dụ về mô hình quan hệ
Trang 22II/ Thao tác cơ bản trên dữ liệu
• Thao tác cơ bản trên dữ liệu bao gồm: Phép
chọn, phép chiếu và phép nối.
• Phép chọn (Selecting) là thao tác lấy về các
hàng theo điều kiện
• Phép chiếu (Projecting) là thao tác lọc bớt các
cột trong bảng
• Phép nối (Joining) là thao tác nối hai hay nhiều
bảng với nhau.
Trang 23III- Hệ quản trị CSDL - DBMS
• Một hệ quản trị cơ sở dữ liệu là một nhóm
những chương trình được dùng như là một giao diện giữa một cơ sở dữ liệu và những chương trình ứng dụng hay với người dùng DBMS
được phân loại theo kiểu mô hình cơ sở dữ liệu
mà chúng hỗ trợ
• Tất cả DBMS đều có vài chức năng chung, như
là cung cấp cách xem CSDL, lưu trữ và trả lại
dữ liệu, chỉnh sửa CSDL, thao tác trên dữ liệu, xuất báo cáo
Trang 24Hệ quản trị CSDL – Cung cấp cách xem CSDL
• DBMS có thể tham khảo một sơ đồ để tìm nơi truy cập dữ liệu được yêu cầu trong mối liên hệ với những mẫu dữ liệu khác
• Một DBMS cũng thực hiện như một giao diện với người sử dụng bằng cách cung cấp một cái nhìn tổng quan về cơ sở dữ liệu
Trang 25Hệ quản trị CSDL – Tạo và hiệu chỉnh CSDL
DDL (data definition language) ngôn ngữ định nghĩa dữ liệu DDL là một tập hợp những chỉ dẫn và câu lệnh được dùng
để định nghĩa và mô tả dữ liệu cùng những mối quan hệ giữa dữ liệu trong một cơ sở dữ liệu cụ thể.
Tự điển dữ liệu (data dictionary)
• Cung cấp một định nghĩa chuẩn cho những giới hạn và
thành phần dữ liệu Nó cung cấp các giới hạn và biến số
nhất quán dùng cho tất cả các chương trình.
• Hỗ trợ lập trình viên trong việc thiết kế và viết chương trình
• Đơn giản hoá việc hiệu chỉnh cơ sở dữ liệu:
Từ điển dữ liệu góp phần đem lại các ưu điểm cho cách tiếp cận CSDL.
• Giảm bớt dữ liệu dư thừa.
• Gia tăng độ tin cậy của dữ liệu.
• Phát triển chương trình nhanh hơn.
• Hiệu chỉnh dữ liệu và thông tin dễ dàng hơn
Trang 26Hệ quản trị CSDL – Thao tác trên dữ liệu
Khi một DBMS được cài đặt, hệ thống có thể được dùng bởi tất cả những người sử dụng thông qua những lệnh
cụ thể trong các ngôn ngữ lập trình khác nhau
Một ví dụ về câu truy vấn: SELECT * FROM
EMPLOYEE WHERE JOB_CLASSIFICATION=”C2”
Dấu * lệnh cho chương trình lấy tất cả các cột từ bảng EMPLOYEE T
Thường thì các lệnh được dùng để thao tác trên cơ sở
dữ liệu thuộc ngôn ngữ thao tác dữ liệu (data
manipulation language – DML), ngôn ngữ cho phép
người quản lý và những người dùng khác truy cập,
hiệu chỉnh và truy vấn dữ liệu trong cơ sở dữ liệu để ra những bản báo cáo
Trang 27Hệ quản trị CSDL – Thao tác trên dữ liệu
Ngôn ngữ truy vấn có cấu trúc (Structured query
language- SQL)
Năm 1986, Viện Tiêu Chuẩn Quốc Gia Mỹ (ANSI) đã
công nhận SQL là ngôn ngữ truy vấn chuẩn cho cơ sở
dữ liệu quan hệ
Từ đó, sự quan tâm trong việc làm cho SQL thành một phần đầy đủ của của cơ sở dữ liệu quan hệ trên cả
máy tính lớn và máy tính cá nhân đã tăng lên
Các lập trình viên và người dùng cơ sở dữ liệu có thể
thấy SQL có giá trị vì những lệnh của SQL có thể được nhúng vào nhiều ngôn ngữ lập trình, như C và
COBOL Vì SQL sử dụng những thủ tục được tiêu
chuẩn và đơn giản hoá để lấy, lưu trữ, thao tác dữ liệu,
nó có thể được sử dụng dễ dàng
Trang 285 Nhà quản trị cơ sở dữ liệu (Database Administrator)
Những khả năng của DBA bao gồm thiết kế, thi hành và bảo dưỡng hệ thống cơ sở dữ liệu; thiết lập những
chính sách và thủ tục liên quan đến quản lý, an ninh, bảo dưỡng và sử dụng hệ thống quản lý cơ sở dữ liệu; huấn luyện những nhân viên về quản lý và sử dụng cơ
Trang 305 Lựa chọn một hệ quản trị CSDL
Các căn cứ để lựa chọn một phần mềm DMMS
• Kích thước cơ sở dữ liệu
• Số người sử dụng cùng lúc
• Tốc độ cập nhật, số người được truy cập cùng lúc
• Sự tích hợp (chạy trên hệ điều hành nào ?)
• Tính năng (bảo mật, dễ sử dụng, wizard…)
• Hãng cung cấp
• Chi phí
Trang 315 Ứng dụng Cơ sở dữ liệu
Những kiểu dữ liệu và thông tin mà nhà quản trị
cần, thay đổi theo sự thay đổi của quá trình kinh doanh Nhiều ứng dụng CSDL có hiệu quả có khả năng đáp ứng nhu cầu nhà quản trị, chúng liên
kết CSDL của công ty với Internet, thiết lập những trung tâm và kho dữ liệu, sử dụng những CSDL cho những chiến lược kinh doanh, cho phép tổ
chức đặt dữ liệu ở các vị trí khác nhau, sử dụng tiến trình xử lý trực tuyến, mở ra những mức độ liên kết để tăng khả năng sản xuất, phát triển
CSDL với phương pháp hướng đối tượng, nghiên cứu và sử dụng những dữ liệu không có cấu trúc như đồ họa và video
Trang 325.Ứng dụng CSDL- liên kết CSDL của công ty với Internet
• Khách hàng, nhà cung cấp và nhân viên công ty phải
có khả năng truy cập CSDL thông qua Internet, thông qua mạng nội bộ, mạng mở rộng để đáp ứng những nhu cầu khác nhau.
Ví dụ như khi mua sắm qua Internet khách hàng có thể biết thêm chi tiết về thông tin sản phẩm bằng cách truy
cập CSDL về sản phẩm, bao gồm kích cỡ, màu sắc, kiểu,
và giá cả chi tiết Nhà cung cấp sử dụng Internet và các mạng nội bộ mở rộng để xem CSDL hàng tồn kho để
kiểm tra lượng nguyên liệu thô và những kế hoạch sản xuất hiện thời để xác định thời điểm và số lượng của
những sản phẩm phải giao Nhân viên công ty cần truy cập vào những CSDL để hỗ trợ cho việc ra quyết định
ngay cả khi họ không có nơi đó Trong các trường hợp
trên, họ có thể sử dụng máy tính xách tay và truy cập dữ
Trang 335.Ứng dụng CSDL - Kho dữ liệu (data warehouse)
• Một kho dữ liệu là một CSDL tập hợp những thông tin
kinh tế từ nhiều nguồn trong việc kinh doanh, bao gồm tất
cả các quá trình của công ty, sản phẩm và khách hàng Kho dữ liệu cung cấp cho nhà kinh doanh những khía
cạnh khác nhau của dữ liệu mà họ cần để phân tích điều kiện kinh doanh
• Kho dữ liệu điển hình bắt đầu như một CSDL lớn, chứa đựng hàng triệu và thậm chí trăm triệu mẩu tin Khi dữ
liệu từ nhiều hệ thống khác nhau được thu thập, một
CSDL có tính lịch sử được xây dựng cho các phân tích viên có thể sử dụng Để luôn chính xác, rõ ràng, kho dữ liệu luôn cập nhật thường xuyên.Việc cập nhật phải
nhanh, hiệu quả và tự động Thông thường kho dữ liệu chứa dữ liệu 3-10 năm từ quá khứ đến hiện tại Công cụ dọn dẹp dữ liệu (data cleanup) có thể nối kết các dữ liệu
từ nhiều nguồn vào CSDL, tự động tập hợp dữ liệu và
kiểm tra, xóa dữ liệu không mong muốn, và bảo vệ dữ
liệu trong một hệ thống CSDL
Trang 345.Ứng dụng CSDL - Kho dữ liệu
Trang 355.Ứng dụng CSDL - Trung tâm dữ liệu (data mart)
liệu mang những khái niệm của kho dữ liệu (phân tích trực tuyến sự mua bán, kiểm kê và cần cho những dữ liệu kinh doanh khác, tập hợp từ hệ thống xử lý giao dịch) áp dụng
cho các doanh nghiệp vừa và nhỏ, các phòng ban trong
công ty lớn Thay vì chứa tất cả các dữ liệu kinh doanh trong một khối CSDL , trung tâm dữ liệu chứa tập hợp những dữ liệu về một mặt của việc kinh doanh của công ty, ví dụ như tài chính, hàng tồn kho, nhân sự … Trên thực tế, trung tâm
dữ liệu có thể mang lại nhiều dữ liệu chi tiết về một lĩnh vực hơn một kho dữ liệu.
• Trung tâm dữ liệu hữu dụng cho những nhóm nhỏ người
khoảng 10 GB dữ liệu, ngược với hàng trăm GB kho dữ liệu, chúng có thể triển khai trên một phần cứng yếu hơn với một thiết bị lưu trữ nhỏ hơn, tiết kiệm chi phí cho công ty