Nhằm vào nâng cao tính hiệu dụng của quyết định chính xác, thời gian tính, chất lượng thay vì là tính hiệu quả giá phí của việc ra quyết định 10.Người ra quyết định kiểm soát toàn bộ các
Trang 1BÀI 2 CẤU TRÚC CỦA HỆ HỖ TRỢ RA QUYẾT ĐỊNH
• Phân loại hệ hỗ trợ quyết định theo kết xuất hệ thống
• Năng lực của hệ hỗ trợ quyết định theo cấu trúc thành phần
TỔNG QUAN VỀ HỆ HỖ TRỢ QUYẾT ĐỊNH
Các định nghĩa trước đây của HHTQĐ nhấn mạnh vào khả năng hỗ trợ các nhà ra quyết
định quản lý trong các tình huống nửa cấu trúc Như vậy, HHTQĐ có ý nghĩa là một bổ
trợ cho các nhà quản lý nhằm mở rộng năng lực nhưng không thay thế khả năng phân xử
của họ Tình huống ở đây là cần đến các phân xử của các nhà quản lý hay các quyết định
không hoàn toàn được giải quyết thông qua các giải thuật chặt chẽ
Thông thường các HHTQĐ sẽ là các hệ thông tin máy tính hóa, có giao tiếp đồ họa và
làm việc ở chế độ tương tác trên các mạng máy tính
Các khái niệm cơ sở của các định nghĩa HHTQĐ
Gorry & Scott-Morton (1971) Kiểu của bài toán, chức năng hệ thống
Little (1970) Chức năng hệ thống, đặc điểm giao tiếp
Alter (1980) Mục tiêu hệ thống, khuôn mẫu sử dụng
Moore & Chang (1980) Năng lực hệ thống, khuôn mẫu sử dụng
Bonezek et al (1989) Thành phần hệ thống
Keen (1980) Quá trình phát triển
Cơ sở của các định nghĩa về HHTQĐ thay đổi từ nhận thức HHTQĐ làm gì (thí dụ, hỗ
trợ ra quyết định trong các bài toán phi cấu trúc) cho đến cách thức đạt được các mục tiêu
của HHTQĐ (các thành phần yêu cầu, khuôn mẫu sử dụng, quá trình phát triển )
Các giải thích:
Little (1970): HHTQĐ là tập các thủ tục dựa vào các mô hình để xử lý dữ liệu và phán
xét nhằm trợ giúp các nhà ra quyết định
Trang 2Alter (1980): định nghĩa HHTQĐ bằng cách tương phản với các hệ xử lý dữ liệu điện tử
theo 5 thứ nguyên như bảng sau:
(EDP)
Cách dùng Tích cực Thụ động
Người dùng Quản lý Thư ký
Mục tiêu Hiệu dụng Hiệu quả
Thời gian Hiện tại, tương lai Quá khứ
Moore & Chang (1980) cho rằng tính cấu trúc trong các định nghĩa trước đây không thật
sự có ý nghĩa vì rằng bài toán mô tả là có cấu trúc hay phi cấu trúc chỉ tương ứng theo
người ra quyết định/tình huống cụ thể Vì vậy, nên định nghĩa HHTQĐ như là hệ thống
hỗ trợ các mô hình quyết định và phân tích dữ liệu tùy biến, được sử dụng ở các khoảng
thời gian bất kỳ, không hoạch định trước
Bonezek et al (1980) cho rằng HHTQĐ là một hệ máy tính gồm 3 thành phần tương tác
với nhau: hệ thống ngôn ngữ (cơ chế để giao tiếp giữa người dùng và các thành phần
khác), hệ kiến thức (kho lưu chứa các kiến thức của lĩnh vực đang xét dưới dạng dữ liệu
hay thủ tục) và hệ xử lý vấn đề (liên kết giữa 2 thành phần kia, chứa một hay nhiều năng
lực xử lý vấn đề tổng quát cần để ra quyết định)
Keen (1980) áp dụng thuật ngữ HHTQĐ cho các tình huống ở đó hệ thống cuối cùng chỉ
có thể được xây dựng bằng một quá trình thích nghi về học tập và tiến hóa Vì vậy,
HHTQĐ là sản phẩm của quá trình phát triển ở đó người dùng hệ thống, người xây dựng
hệ thống và bản thân hệ thống có khả năng ảnh hưởng lên nhau gây ra một tiến hóa và
khuôn mẫu sử dụng
Trang 3NĂNG LỰC CỦA HỆ HỖ TRỢ QUYẾT ĐỊNH
1 HHTQĐ cơ bản hỗ trợ các nhà ra quyết định trong các tình huống nửa cấu trúc và
phi cấu trúc bằng cách kết hợp phán xử của con người và xử lý thông tin bằng máy tính Các bài toán như vậy không thể/không thuận tiện giải quyết được chỉ bằng các công cụ máy tính hóa hay các phương pháp định lượng
2 Phù hợp cho các cấp quản lý khác nhau từ cao đến thấp
3 Phù hợp cho cá nhân lẫn nhóm Các bài toán ít có tính cấu trúc thường liên đới
đến nhiều cá nhân ở các đơn vị chức năng hay mức tổ chức khác nhau cũng như ở
Bài toán nửa cấu trúc
(1)
Cho các nhà quản lý các cấp (2)
Cho nhóm & cá nhân
(3)
Quyết định liên thuộc/tuần tự (4)
Hỗ trợ tìm kiếm, thiết
kế, chọn lựa (5)
Hỗ trợ các dạng phong cách và quá trình (6)
Có tính thích nghi và linh hoạt (7)
Trang 47 Có thể tiến hóa theo thời gian Người dùng có thể thêm, bỏ, kết hợp, thay đổi các
phần tử cơ bản của hệ thống
8 Dễ dùng và thân thiện với người dùng
9 Nhằm vào nâng cao tính hiệu dụng của quyết định (chính xác, thời gian tính, chất
lượng) thay vì là tính hiệu quả (giá phí của việc ra quyết định)
10.Người ra quyết định kiểm soát toàn bộ các bước của quá trình ra quyết định,
HHTQĐ chỉ trợ giúp, không thay thế người ra quyết định
11.Người dùng cuối cùng có thể tự kiến tạo và sửa đổi các hệ thống nhỏ và đơn giản
12.Thường dùng mô hình để phân tích các tình huống ra quyết định
13.Cung ứng các truy đạt dữ liệu từ nhiều nguồn, dạng thức và kiểu khác nhau
14.Có thể dùng như một công cụ độc lập hay kết hợp với các HHTQĐ/ứng dụng
khác, dùng đơn lẻ hay trên một mạng lưới máy tính (intranet, extranet) bất kỳ với công nghệ WEB
Phân hệ giao diện người dùng
Các phân hệ dựa trên kiến thức
Trang 5Phân hệ quản lý dữ liệu gồm một cơ sở dữ liệu (database) chứa các dữ liệu cần thiết của
tình huống và được quản lý bởi một hệ quản trị cơ sở dữ liệu (DBMS – data base
management system) Phân hệ này có thể được kết nối với nhà kho dữ liệu của tổ chức
(data warehouse) – là kho chứa dữ liệu của tổ chức có liên đới đến vấn đề ra quyết định
Phân hệ quản lý mô hình còn được gọi là hệ quản trị cơ sở mô hình (MBMS – model
base management system) là gói phần mềm gồm các thành phần về thống kê, tài chánh,
khoa học quản lý hay các phương pháp định lượng nhằm trang bị cho hệ thống năng lực
phân tích; cũng có thể có các ngôn ngữ mô hình hóa ở đây Thành phần này có thể kết nối
với các kho chứa mô hình của tổ chức hay ở bên ngoài nào khác
Phân hệ quản lý dựa vào kiến thức có thể hỗ trợ các phân hệ khác hay hoạt động độc lập
nhằm đưa ra tính thông minh của quyết định đưa ra Nó cũng có thể được kết nối với các
kho kiến thức khác của tổ chức
Phân hệ giao diện người dùng giúp người sử dụng giao tiếp với và ra lệnh cho hệ thống
Các thành phần vừa kể trên tạo nên HHTQĐ, có thể kết nối với intranet/extranet của tổ
chức hay kết nối trực tiếp với Internet
Phân hệ quản lý dữ liệu
Tài chánh Sản xuất Tiếp thị Nghiên cứu
Các nguồn dữ liệu nội Các nguồn dữ
Quản lý giao diện
Quản lý mô hình
Phân hệ dựa trên kiến thức
Trích xuất Truy vấn
Trang 6Phân hệ quản lý dữ liệu bao gồm các phần tử sau (phần trong khung hình chữ nhật trên
hình vẽ)
¾ Cơ sở dữ liệu
¾ Hệ quản trị cơ sở dữ liệu
¾ Danh mục dữ liệu
¾ Phương tiện truy vấn
Cơ sở dữ liệu (CSDL): tập hợp các dữ liệu có liên quan phục vụ cho nhu cầu của tổ chức,
dùng bởi nhiều người (vị trí), đơn vị chức năng và ở các ứng dụng khác nhau
CSDL của HHTQĐ có thể lấy từ nhà kho dữ liệu, hoặc được xây dựng theo yêu cầu
riêng Dữ liệu được trích lọc từ các nguồn bên trong và bên ngoài tổ chức Dữ liệu nội tại
thường từ hệ xử lý giao tác (TPS – transaction processing system) của tổ chức, có thể ở
các đơn vị chức năng khác nhau
TD: lịch bảo trì máy móc, thông tin về cấp phát ngân sách, dự báo về bán hàng, giá phí
của các phụ tùng hết hàng
Dữ liệu ngoại tại thường gồm các dữ liệu về ngành công nghiệp, nghiên cứu thị trường,
kinh tế quốc gia …có nguồn gốc từ các tổ chức chính phủ, các hiệp hội thương mại, công
ty nghiên cứu thị trường hay từ nỗ lực tự thân của tổ chức
Hệ quản trị cơ sở dữ liệu: thường các HHTQĐ trang bị các hệ quản trị cơ sở dữ liệu tiêu
chuẩn (thương mại) có khả năng hỗ trợ các tác vụ quản lý – duyệt xét các bản ghi dữ liệu,
tạo lập và duy trì các quan hệ dữ liệu, tạo sinh báo cáo theo nhu cầu Tuy nhiên, sức
mạnh thực sự của các HHTQĐ chỉ xuất hiện khi tích hợp dữ liệu với các mô hình của nó
Phương tiện truy vấn: trong quá trình xây dựng và sử dụng HHTQĐ
Phân hệ quản lý mô hình
Quản lý
dữ liệu
Quản lý giao diện
Quản lý dựa trên kiến thức
Quản lý cơ sở mô hình
• Các lệnh của mô hình: tạo mới
• Bảo trì: cập nhật
• Giao diện cơ sở dữ liệu
• Ngôn ngữ mô hình hóa
Các mô hình (cơ sở mô hình)
• Chiến lược, chiến thuật, vận hành
• Thống kê, tài chánh, tiếp thị
• Giao diện cơ sở dữ liệu
• Các khối xây dựng mô hình
Danh mục
mô hình
Bộ xử lý lệnh, tích hợp và thực thi
mô hình
Trang 7Phân hệ quản lý dựa trên kiến thức
• Cung cấp khả năng cần để giải quyết một vài khía cạnh của bài toán và tăng
cường năng lực vận hành của các thành phần khác của HHTQĐ
• Silverman (1995) đề nghị 3 cách tích hợp các hệ chuyên gia dựa trên kiến thức
với mô hình toán:
Trợ giúp quyết định dựa trên kiến thức - giúp hỗ trợ các bước của quá trình quyết
định không giải quyết được bằng toán
Các hệ mô hình hóa quyết định thông minh - giúp người dùng xây dựng, áp dụng
và quản lý thư viện các mô hình
Các hệ chuyên gia phân tích quyết định - tích hợp các phương pháp lý thuyết
nghiêm ngặt về tính bất định vào các cơ sở kiến thức của hệ chuyên gia
• Khi có thành phần này, có các tên gọi: HHTQĐ thông minh (intelligent DSS),
HHT chuyên gia (ESS - expert support system), HHTQĐ tích cực (active DSS),
HHTQĐ dựa trên kiến thức (knowledge-based DSS)
Phân hệ giao diện người dùng
Phân hệ dựa trên kiến thức
Bộ xử lý ngôn ngữ tự nhiên
Nhập
Các ngôn ngữ hành động
Xuất
Các ngôn ngữ hiển thị
Người dùng
Bộ xử lý ngôn ngữ tự nhiên
Trang 8PHÂN LOẠI HỆ HỖ TRỢ QUYẾT ĐỊNH THEO KẾT XUẤT HỆ THỐNG
Mẫu sử dụng
Thời gian
Hệ lưu trữ
hồ sơ
Truy xuất các hạng mục dữ liệu
chức năng, không quản
Phân tích vận hành
Nhà phân tích hay nhân viên chức năng,
có quản lý
Xử lý và hiển thị dữ liệu
đới đến
nhiều CSDL và các mô hình nhỏ
Phân tích, lập kế hoạch
Nhà phân tích
Thảo chương các báo cáo đặc biệt; phát triển các
mô hình nhỏ
Bất kỳ, theo yêu cầu
hình kế
toán
Các phép tính tiêu chuẩn ước lượng các kết quả tương lai dựa theo kế toán
Lập kế hoạch;
hoạch định ngân sách
Nhà phân tích hay nhà quản lý
Nhập: các
ước lượng
hoạt động Xuất: các kết quả tiền
tệ được ước lượng
Theo chu
kỳ (tuần, tháng, năm )
động nhất định
Lập kế hoạch;
hoạch định ngân sách
Nhà phân tích
Nhập: các quyết định
có thể Xuất: các kết quả
được ước
lượng
Chu kỳ hay bất kỳ (phân tích bất kỳ)
Các mô
hình tối ưu
Tính giải pháp tồi ưu
đối với bài
toán tổ hợp
Lập kế hoạch; cấp phát tài nguyên
Nhà phân tích
Nhập: các mục tiêu và ràng buộc Xuất: các kết quả
Lập kế hoạch;
hoạch định ngân sách
Các mô
hình kiến
nghị
Thực hiện các tính toán sinh ra một quyết
định được
đề nghị
chức năng, không quản
lý
Nhập: mô
tả cấu trúc
về tình huống quyết định Xuất: quyết
định được
đề nghị
Hàng ngày hay có chu
kỳ
Trang 9NĂNG LỰC CỦA HỆ HỖ TRỢ QUYẾT ĐỊNH THEO CẤU TRÚC THÀNH
dữ liệu đối với phổ rộng các bài toán và bối cảnh
Truy đạt đến tầm rộng các khả năng phân tích với một
số các đề nghị hay hướng dẫn
phân tích các đối thoại (theo
dõi các đối thoại)
7 Hỗ trợ đối thoại
thích nghi và linh hoạt
1 Tầm rộng các dạng thức và kiểu dữ liệu
4 Chức năng quản lý
cơ sở dữ liệu
5 Tầm rộng các cách nhìn logic về dữ liệu
6 Tư liệu hóa dữ liệu
7 Theo dõi cách dùng
dữ liệu
8 Hỗ trợ dữ liệu thích nghi và linh hoạt
1 Thư viện các mô hình để tạo nên cơ sở mô hình
- nhiều kiểu
- duy trì, phân loại và tích hợp
- tiền xử lý thư viện
2 Phương tiện xây dựng mô hình
3 Phương tiện dùng và thao tác mô hình
Trang 10• Cần phân biệt giữa dữ liệu, thông tin và kiến thức
Dữ liệu: những mô tả về sự vật, hiện tượng, giao tác được ghi nhận, được phân
loại và được lưu trữ nhưng chưa được tổ chức lại để tập trung các ý nghĩa nhất
định
Thông tin: dữ liệu được tổ chức để có ý nghĩa đối với người nhận
Một ứng dụng của hệ hỗ trợ quản lý: xử lý các hạng mục dữ liệu để các kết quả có
ý nghĩa cho hành động hay cho quyết định dự kiến
Kiến thức: gồm các hạng mục dữ liệu và/hay thông tin được tổ chức và xử lý để
nắm bắt/tập trung sự hiểu biết, kinh nghiệm, tri thức học tập và kỹ năng chuyên
gia trên một vấn đề nhất định
Kiến thức có thể là ứng dụng của dữ liệu và thông tin để ra quyết định
Dữ liệu bao gồm
¾ các dạng tài liệu, hình ảnh, bản đồ, âm thanh và hoạt hình;
¾ có thể bao gồm các dạng khái niệm, suy nghĩa hay ý kiến;
¾ có thể nằm ở các dạng lưu trữ và tổ chức khác nhau trước và sau khi sử
dụng;
¾ có thể ở dạng thô hay được xử lý
3 nguồn dữ liệu chính: trong, ngoài và cá nhân
¾ Trong: của tổ chức; trữ ở một hay nhiều vị trí khác nhau
¾ Ngoài: các tổ chức khác cung ứng
¾ Cá nhân: dữ liệu và kiến thức của cá nhân được lưu trữ dành cho hoạt động của
cả tổ chức
THU THẬP VÀ CHẤT LƯỢNG DỮ LIỆU
• Thu thập: thủ công hay qua thiết bị
Phương pháp thu thập phổ biến: bảng câu hỏi, quan sát, nghiên cứu thời gian,
phỏng vấn , cảm biến, máy quét …
• Dù thu thập cách nào, dữ liệu cũng cần được hợp thức và lọc lại bởi vì chất lượng
và tính toàn vẹn của dữ liệu có ý nghĩa tới hạn cho các hệ hỗ trợ quản lý/quyết
định
Tránh hiện tượng “rác đầu vào, rác đầu ra” (garbage in, garbage out: GIGO)
• Điều quan trọng là dữ liệu thu thập được: cần có khung cơ sở để dò tìm, ngăn
ngừa và hiệu chỉnh sai số trong thu thập dữ liệu cho hệ hỗ trợ quyết định (Arinze
& Banerjee, 1992)
Trang 11Vấn đề liên quan đến dữ liệu
Xây dựng chương trình an toàn thích hợp
Dữ liệu không kịp
thời
Phương pháp tạo sinh dữ liệu không
đủ nhanh so với nhu cầu
Sửa đổi hệ thống tạo sinh
Xây dựng hệ thống đo lường hay tổ hợp dữ liệu Dùng nhà kho dữ liệu Dùng các động cơ tìm kiếm thích hợp
Xây dựng các mô hình đơn giản hơn hay có tính kết hợp cao hơn
Không có dữ liệu
cần thiết
Dữ liệu cần thiết chưa được lưu trữ bao giờ cả
Dữ liệu yêu cầu chưa có bao giờ
Tiên đoán những dữ liệu cần cho tương lai
Dùng nhà kho dữ liệu Tạo sinh dữ liệu mới
Chất lượng dữ liệu
• Đây là vấn đề đặc biệt quan trọng
• Các phạm trù và thứ nguyên (Strong et al, 1997):
Ngữ cảnh: tính thích đáng, giá trị tăng thêm, tính kịp thời, tính đầy đủ và khối
lượng dữ liệu
Nội tại: tính chính xác, khách quan, tin cậy được và danh tiếng
Dễ truy cập: truy đạt được và mức an toàn truy cập
Đại diện: khả năng phân giải, dễ hiểu, thể hiện súc tích và thể hiện nhất quán
• Một vấn đề chính là tính toàn vẹn (data integrity) Ở lĩnh vực nhà kho dữ liệu, có
5 khía cạnh sau (Gray & Watson, 1998):
Trang 12CƠ SỞ DỮ LIỆU
• Tính độc lập dữ liệu (data independence): chương trình ứng dụng bất biến trước
các chiến lược tổ chức và lưu trữ dữ liệu - đây là ưu điểm và lý do tổ chức cơ sở
dữ liệu (CSDL – data base)
• Hệ quản trị cơ sở dữ liệu (data base management system - DBMS):
Giao tiếp giữa người dùng và CSDL
Quản lý dữ liệu
– cập nhật, thêm, bớt, xóa thông tin trong kho dữ liệu;
– truy xuất dữ liệu;
– hiển thị/sinh báo cáo
Thông thường dữ liệu từ CSDL được trích xuất và đặt vào một mô hình thống kê,
toán, hay tài chánh để xử lý hay phân tích thêm nữa
• Mô hình của CSDL:
Quan hệ: dữ liệu và quan hệ tương ứng đều ở dạng bảng 2 chiều
Đây cũng là cách tổ chức của nhiều nhà kho dữ liệu
Phân cấp: các hạng mục dữ liệu nằm trong hình cây/sơ đồ phân cấp
Dùng chủ yếu trong xử lý giao tác có yêu cầu cao về tính hiệu quả
Mạng lưới: cho phép các liên kết phức tạp giữa các hạng mục dữ liệu; tiết kiệm
không gian bộ chứa qua việc dùng chung một số hạng mục
Hướng đối tượng: dữ liệu được quan niệm hóa dưới dạng các đối tượng (dữ liệu
+ chức năng) duy trì các quan hệ tự nhiên giữa chúng
Các đặc tính của nguyên lý hướng đối tượng – nhấn mạnh vào tính dùng lại
đa môi trường (multimedia based): dữ liệu là các đối tượng nhị phân lớn, thường
thể hiện các dạng thông tin cho phép tích hợp cả âm thanh nổi, hình ảnh động 3
chiều
tư liệu (document based): các hệ thống quản lý tài liệu điện tử (electronic
document management - EDM) thường được dùng cho lưu trữ và phân phối thông
tin khối lượng lớn, cho tự động hóa dòng công việc của tổ chức …
thông minh (intelligent): có năng lực suy diễn (nhờ vào công nghệ trí tuệ nhân tạo
(artificial intelligence - AI) như hệ chuyên gia (expert system - ES), mạng thần
kinh nhân tạo (artificial neural network - ANN)
• Nguồn dữ liệu ngoài:
Internet
các kho/ngân hàng dữ liệu thương mại hóa (dịch vụ cung cấp/bán dữ liệu)
Trang 13GIẢI PHÁP DỮ LIỆU HIỆN TẠI
Nhà kho dữ liệu
• Vai trò: cung ứng dữ liệu để hỗ trợ ra quyết định (vai trò chủ yếu) và các ứng
dụng thông tin khác (nhờ vào đặc điểm cải tiến và mở rộng phạm vi, độ chính xác
và tính dễ truy đạt của dữ liệu)
• Người dùng: 2 lớp
Người dùng trực tiếp: các nhà phân tích thị trường, hoạch định tài chánh cần dữ
liệu để tiến hành công việc tương ứng
Người phát triển ứng dụng: xây dựng ứng dụng cho các người dùng trực tiếp; cần
hiểu rõ về tổ chức và truy xuất nhà kho
• Kiến trúc: thường là 3 mức (Gray & Watson, 1998)
• Các biến thể của nhà kho dữ liệu:
Kho dữ liệu vận hành (operational data store - ODS): áp dụng kỹ thuật nhà kho dữ
liệu vào các hệ xử lý giao tác
Siêu thị dữ liệu (data mart): dạng thu nhỏ của nhà kho dữ liệu, hỗ trợ cho một đơn
vị kinh doanh/phòng chức năng
¾ Siêu thị dữ liệu phụ thuộc: phần bổ sung của nhà kho dữ liệu
¾ Siêu thị dữ liệu độc lập: không cần đến nhà kho dữ liệu
Nhà kho dữ liệu (quy ước): hỗ trợ toàn bộ tổ chức
• So sánh giữa kho dữ liệu vận hành (ODS) và nhà kho dữ liệu (DW) (Gray &
Watson, 1998)
Kho dữ liệu vận hành Nhà kho dữ liệu
Dữ liệu theo chủ đề
Dữ liệu tích hợp
Dữ liệu thay đổi
Dữ liệu được cập nhật khi thay đổi
Chỉ có dữ liệu hiện tại
Chu kỳ làm tươi dữ liệu ngắn
Chỉ có dữ liệu chi tiết
Dùng cho các quyết định ngắn hạn
Dữ liệu theo chủ đề
Dữ liệu tích hợp
Dữ liệu không thay đổi
Dữ liệu giữ nguyên
Dữ liệu hiện tại và dữ liệu lịch sử Chu kỳ làm tươi dữ liệu dài
Dữ liệu chi tiết và dữ liệu tổng kết Dùng cho hoạch định dài hạn
Nạp dữ liệu vào nhà kho
Truy xuất dữ liệu
Truy đạt và phân tích dữ liệu trong nhà kho
Hậu trường
Giao diện
Trang 14• Đặc điểm của nhà kho dữ liệu:
Hướng chủ đề Dữ liệu tổ chức theo cách thức người dùng tham chiếu
Tích hợp Dữ liệu “sạch”, loại bỏ tính thiếu nhất quán
Không thay đổi Dữ liệu “chỉ đọc”, người dùng không thay đổi được
Chuỗi thời gian Dữ liệu là chuỗi thời gian, không phải là trạng thái hiện tại
Được tổng kết Dữ liệu vận hành/thao tác khi cần thiết được kết hợp lại
thành dạng có thể dùng được cho quyết định
Kích cỡ lớn hơn Lưu giữ theo chuỗi thời gian tức là giữ lại nhiều dữ liệu
Không được chuẩn hóa Có thể dư thừa dữ liệu
Siêu dữ liệu Dữ liệu về dữ liệu cho cả 2 loại người dùng nhà kho dữ liệu
Nhập lượng Dữ liệu vận hành (các hệ sẵn có) cùng với các nguồn ngoài
Xử lý phân tích trực tuyến (online analytic processing - OLAP)
• Ý tưởng cơ bản: người dùng có thể thao tác trên các mô hình dữ liệu mức tổ
chức theo nhiều chiều để có thể hiểu được các thay đổi diễn ra trong tổ chức
• Điều kiện triển khai xử lý phân tích trực tuyến:
Yêu cầu về dữ liệu mang tính phân tích, không phải là giao tác
Thông tin được phân tích không phải là thông tin vừa nhập vào tổ chức
Cần đến một số lớn các tính toán và kết hợp các dữ liệu mức giao tác
Kiểu dữ liệu cơ bản là kiểu số
Cần đến các cách nhìn liên chức năng về dữ liệu theo nhiều chiều
Các phần tử nhận diện các điểm dữ liệu tương đối tĩnh tại theo thời gian
• 12 quy tắc của xử lý phân tích trực tuyến (Codd, 1993):
1 Cách nhìn đa chiều 7 Xử lý động ma trận thưa
2 Trong suốt đối với người dùng 8 Hỗ trợ đa người dùng
3 Dễ truy đạt 9 Các vận hành đa chiều
4 Vấn đề báo cáo nhất quán 10 Xử lý trực giác dữ liệu
5 Kiến trúc khách/chủ 11 Vấn đề báo cáo linh hoạt
6 Các chiều bình đẳng 12 Mức độ kết hợp và số chiều không
hạn chế
Khai mỏ dữ liệu (data mining)
• Là chức năng khám phá kiến thức, được dùng khi các quan hệ giữa các biến dữ
liệu không có dạng toán học, các mô hình khó xây dựng
Trang 15• 5 kiểu thông tin có thể thu nhận được từ khai mỏ dữ liệu:
Phân loại: rút ra các đặc tính định nghĩa của 1 nhóm
Ghép nhóm: nhận diện nhóm phần tử có chung 1 đặc điểm
Kết hợp: nhận diện các quan hệ giữa các sự kiện xảy ra ở cùng một thời điểm
Tuần tự: như kết hợp, ngoại trừ các quan hệ tồn tại trong một khoảng thời gian
Dự báo: ước lượng các giá trị tương lai trên các khuôn mẫu với các tập dữ liệu
lớn
• Các công cụ khai mỏ dữ liệu chủ yếu:
Theo công nghệ có các dạng công cụ chính sau:
Suy lý dựa vào các trường hợp (case-based reasoning): với các trường hợp lịch
sử, có thể dùng để công nhận các khuôn mẫu
Tính toán thần kinh (neural computing): dùng các dữ liệu lịch sử để công nhận
các khuôn mẫu
Tác nhân thông minh (intelligent agent): tiếp cận rất có triển vọng để thu thập
thông tin từ các CSDL ngoại tại (như Internet)
Khác: cây quyết định (decision tree), quy nạp luật (rule induction) và trực quan
hóa dữ liệu (data visualization)
• Các thí dụ về tình huống nhận diện cơ hội để tạo ra lợi thế cạnh tranh:
Tiếp thị: tiên đoán khách hàng nào sẽ mua sản phẩm; phân khúc tập hợp khách
hàng
Ngân hàng: dự báo các mức tín dụng xấu; loại khách hàng có thể chấp nhận đề
nghị cho vay mới
Bán hàng: dự báo khối lượng bán, xác định các mức tồn kho hợp lý
Sản xuất: dự báo thời điểm máy móc trục trặc; xác định yếu tố kiểm soát tối ưu
năng lực sản xuất
Giao dịch chứng khoán: tiên đoán thời điểm giá cổn phiếu thay đổi; xác định thời
điểm bán chứng khoán
Khai mỏ văn bản (text mining)
• Áp dụng kỹ thuật khai mỏ dữ liệu vào các tập tin văn bản ít có tính cấu trúc – các
tài liệu có thể có cấu trúc về khuôn dạng chứ không phải về nội dung
• Khai mỏ văn bản (text mining) giúp các tổ chức:
Tìm ra các nội dung ẩn của tài liệu, gồm cả các quan hệ có ích khác
Xác định quan hệ giữa các đơn vị trong tổ chức đối với cùng tài liệu
Ghép nhóm tài liệu theo các chủ đề chung
• TD:
(i) Dò tìm trong CSDL của các tài liệu theo tổ hợp các từ khóa để rút ra tập các tài
liệu cần thiết,
(ii) Chia tập các tài liệu có được theo chủ đề - đặc trưng bởi danh sách các từ khóa
rút ra từ văn bản không có khuôn dạng của tài liệu Chủ đề quan tâm được thể
hiện qua các danh sách các từ khóa vừa kể