Bài giảng hệ hỗ trợ quyết định
Trang 1Đóng File
Bài giảng Kho dữ liệu và Hệ hỗ trợ quyết định
Hoàng Thị Lan Giao - Đại học Khoa học Huế
Trang 3Trang tiêu đề Mục lục
JJ II
Trang 3 / 48
Quay lui Toàn màn hình
Đóng File
2.1 Mục đích xây dựng kho dữ liệu
2.2 Cấu trúc kho dữ liệu
Trang 4Trang tiêu đề Mục lục
JJ II
Trang 4 / 48
Quay lui Toàn màn hình
Đóng File
3.1 Chức năng
3.2 Ưng dụng
Trang 5Trang tiêu đề Mục lục
JJ II
Trang 5 / 48
Quay lui Toàn màn hình
Đóng File
4.1 Các nguồn thông tin đa tạp
- Sự bùng nỗ thông tin
- Nhiều hệ thống thông tin được xây dựng khác nhau về
nhiều mặt: Giao diện, cấu trúc biểu diễn, có thể chứa thông
tin trùng lặp; không nhất quán
4.2 Truy cập dữ liệu một cách thống nhất
- Thu thập và kết hợp thông tin
- Khung nhìn tích hợp
- Hỗ trợ khả năng chia sẻ
1 Làm cho hệ thống trở nên dễ hiểu
2 Làm sạch dữ liệu thu thập từ nhiều nguồn
3 Dữ liệu dễ phân tích và tích hợp ,
4 Lưu trữ dữ liệu đầy đủ và nhất quán, tổ chức sẵn cho
Trang 6Trang tiêu đề Mục lục
JJ II
Trang 6 / 48
Quay lui Toàn màn hình
Đóng File
5.1 Tầng 1: Truy xuất dữ liệu
- Các hệ hỗ trợ quyết định
- Các báo cáo
- Các câu hỏi
5.2 Tầng 2: Bản thân dữ liệu
- OLAP: Phần mềm cho phép phân tích và quản lý
- Dữ liệu đ−ợc chuyển đổi từ mức thô sang cấu trúc đa
chiều
- Mô hình đa chiều phù hợp trong các lĩnh vực kinh doanh
- Kiến trúc khách - chủ
Trang 7Trang tiêu đề Mục lục
JJ II
Trang 7 / 48
Quay lui Toàn màn hình
Đóng File
5.3 Tầng 3: Tầng thu thập
- Các nguồn dữ liệu khác nhau: Các hệ thống tác nghiệp;
Hệ thống kế thừa; dữ liệu bên ngoài
Dữ liệu từ các hệ thống tác nghiệp: Nguồn dữ liệu đ−ợc
tích hợp để xây dựng kho dữ liệu; đ−ợc sử dụng cho các
toàn tác hằng ngày; chứa dữ liệu chi tiết và thích hợp hiện
hành
Hệ thống kế thừa: Các dữ liệu cũ, không dùng cho các mục
đích hoạt động;
Dữ liệu từ hệ thống bên ngoài: không phải dữ liệu đ−ợc
tạo ra từ hệ thống quản lý (công ty); đ−ợc yêu cầu cung
cấp cho các phân tích chi tiết, có thể có cấu trúc khác nhau
phụ thuộc vào nhà cung cấp
Trang 8Trang tiêu đề Mục lục
JJ II
Trang 8 / 48
Quay lui Toàn màn hình
Đóng File
5.4 Chiết dữ liệu - (Tầng 3)
- Dữ liệu đ−ợc chiết từ nhiều nguồn với những kiểu dữ liệu
khác nhau: quan hệ, file, HTML, XML,v.v
- Làm sạch dữ liệu: Loại bỏ dữ liệu trùng nhau; xử lý dữ
liệu không nhất quán; thiếu
- Chuyển đổi: Loại trừ dữ liệu gây nhiễu; chuyển dữ liệu
vào l−ợc đồ nhất quán; xây dựng tri thức từ dữ liệu
Trang 9Trang tiêu đề Mục lục
JJ II
Trang 9 / 48
Quay lui Toàn màn hình
Đóng File
6.1 Kho dữ liệu vận hành (ODS)
Ap dụng kỹ thuật kho dữ liệu vào các hệ xử lý giao tác
6.2 Siêu thị dữ liệu (Data mart)
Dạng thu nhỏ của nhà kho dữ liệu, hỗ trợ cho một đơn vị
Siêu thị dữ liệu phụ thuộc: Phần bổ sung của nhà kho dữ
liệu
Siêu thị dữ liệu độc lập: Không cần đến nhà kho dữ liệu
6.3 Nhà kho dữ liệu (quy −ớc)
Hỗ trợ toàn bộ tổ chức
Trang 10Trang tiêu đề Mục lục
JJ II
Trang 10 / 48
Quay lui Toàn màn hình
Trang 11Trang tiêu đề Mục lục
JJ II
Trang 11 / 48
Quay lui Toàn màn hình
Đóng File
Phần 2: Cấu trúc Hệ hỗ trợ quyết định
Trang 12Trang tiêu đề Mục lục
JJ II
Trang 12 / 48
Quay lui Toàn màn hình
Đóng File
1 Trợ giúp quyết định dựa trên kiến thức - giúp hỗ trợ các
bước của quá trình quyết định không giải quyết được
banừg toán học
2 Các hệ mô hình hoá quyết định thông minh- giúp người
dùng xây dựng, áp dụng và quản lý thư viện các mô
hình
3 Các hệ chuyên gia phân tích quyết định- tích hợp các
phương pháp lý thuyết nghiêm ngặt về tính bất định
vào các cơ sở kiến thức của Hệ chuyên gia
⇒ Có các tên gọi khác: Hệ HTQD thông minh; HHT
Chuyên gia; HHTQD tích cực,
Trang 13Trang tiêu đề Mục lục
JJ II
Trang 13 / 48
Quay lui Toàn màn hình
Đóng File
2.1 Bản chất và nguồn gốc dữ liệu
2.2 Thu thập và chất l−ợng dữ liệu
2.3 Cơ sở dữ liệu
2.4 Giải pháp dữ liệu hiện tại
Trang 14Trang chủ Trang tiêu đề Mục lục
JJ II
Trang 14 / 48
Quay lui Toàn màn hình
Đóng File
Đóng PDF
3.1 Phân biệt giữa dữ liệu, thông tin và kiến thức
1 Mô tả về sự vật, hiện tượng, giao tác được ghi nhận,
phân loại và lưu trữ nhưng chưa được tổ chức để hội tụ
ý nghĩa nhất định
2 Dữ liệu được tổ chức để có ý nghĩa đối với người nhận
3 Dữ liệu hay thông tin được tổ chức và xử lý để nắm
bắt sự hiểu biết , kinh nghiệm
Kiến thức có thể là sự sử dụng dữ liệu và thông tin để
ra quyết định
3.2 Các dạng dữ liệu
- Đa dạng: hình ảnh, âm thanh, khái niệm
- Lưu trữ và tổ chức theo nhiều cách khác nhau
- Có thể ở dạng thô hoặc qua xử lý
Trang 15Trang tiêu đề Mục lục
JJ II
Trang 15 / 48
Quay lui Toàn màn hình
Đóng File
4.1 Thu thập
- Phương pháp thu thập phổ biến: bằng câu hỏi, quan sát,
nghiên cứu thời gian, phỏng vấn,
- Dữ liệu cần hợp thức và lọc lại: chất lượng và tính toàn
vẹn của dữ liệu có ý nghĩa cho các hệ hỗ trợ quản lý, quyết
Trang 16Trang tiêu đề Mục lục
JJ II
Trang 16 / 48
Quay lui Toàn màn hình
- Đa môi trường (Multimedia based)
- Tư liệu (Doccument based)
- Thông minh (Intelligent)
Trang 17Trang tiêu đề Mục lục
JJ II
Trang 17 / 48
Quay lui Toàn màn hình
Đóng File
5.3 Giải pháp dữ liệu hiên tại
Nhà kho dữ liệu:
- Vai trò: cung ứng dữ liệu để hỗ trợ ra quyết định
- Người dùng (2 lớp): người dùng trực tiếp và người phát
triển ứng dụng
Trang 18Trang tiêu đề Mục lục
JJ II
Trang 18 / 48
Quay lui Toàn màn hình
Đóng File
Phần 3: Mô hình Hồi quy tuyến tính
Trang 19Trang tiêu đề Mục lục
JJ II
Trang 19 / 48
Quay lui Toàn màn hình
Trang 20Trang tiêu đề Mục lục
JJ II
Trang 20 / 48
Quay lui Toàn màn hình
Đóng File
1.2 Véctơ trung bình
E(X) = [E(X1), ã ã ã , E(Xn)]T = [à1, ã ã ã , àn]T là véctơ giá
trị trung bình
σii = E(Xi ư ài)2 là phương sai của Xi và
σij = E(Xiư ài)(Xjư àj) với ài = E(Xi) được gọi là hiệp
phương sai của Xi và Xj
Ma trận hiệp phương sai:
cov(X) = E(X ư à)(X ư à)T = [E(Xi ư ài)(Xj ư àj)]
Trang 21Trang tiêu đề Mục lục
JJ II
Trang 21 / 48
Quay lui Toàn màn hình
Đóng File
Cho X1, X2 là hai biến ngẫu nhiên rời rạc với ma trận xác
suất đồng thời nh− sau:
x1\x2 0 1 p1(x1)-1 0.24 0.06 0.3
Trang 22Trang tiêu đề Mục lục
JJ II
Trang 22 / 48
Quay lui Toàn màn hình
Đóng File
Phân tích hồi quy là phương pháp phân tích thống kê để dự
đoán các giá trị của các biến phụ thuộc
Giả sử X1, X2, ã ã ã , Xk là k biến độc lập dùng để dự báo
và Y là biến phụ thuộc cần dự báo
Ví dụ: Y là giá nhà hiện hành Khi đó Y phụ thuộc chủ
yếu vào các yếu tố sau:
1) X1 là điện tích sử dụng (m2),
2) X2 là vị trí vùng (thành phố, quận, huyện, .),
3) X3 là giá của năm trước (quí trước, tháng trước, .),
4) X4 là chất lượng xây dựng (giá xây dựng trên một
m2)
Trang 23Trang tiêu đề Mục lục
JJ II
Trang 23 / 48
Quay lui Toàn màn hình
Đóng File
Sự phụ thuộc giữa biến Y theo các biến X1, X2, ã ã ã , Xk
nói chung là phức tạp Mô hình hồi quy tuyến tính cổ điển
khẳng định Y phụ thuộc tuyến tính vào các Xi:
Y = β0 + β1X1 + ã ã ã + βkXk + trong đó là sai số ngẫu nhiên và βi, i = 1, k là các hệ số
ch−a biết
Trang 24Trang tiêu đề Mục lục
JJ II
Trang 24 / 48
Quay lui Toàn màn hình
Đóng File
Giả sử ta có n mẫu (bản ghi) nhận được từ thực nghiệm
với các số liệu của các thuộc tính X1, ã ã ã , Xk và Y tương
ứng tuân theo mô hình sau:
y1 = β0 + β1x11 + ã ã ã + βkx1k + 1
y2 = β0 + β2x21 + ã ã ã + βkx2k + 2
yn = β0 + βnx11 + ã ã ã + βkxnk + ntrong đó các sai số 1, ã ã ã , n thoả ba điều kiện:
1) E(j) = 0: việc đo đạc không chịu sai lệch hệ thống
2) D(j) = σ2: Phương sai không đổi hay độ chuẩn xác
đo đạc như nhau
3) cov(i, j) = 0 với i 6= j
Trang 25Trang tiêu đề Mục lục
JJ II
Trang 25 / 48
Quay lui Toàn màn hình
Trang 26Trang tiêu đề Mục lục
JJ II
Trang 26 / 48
Quay lui Toàn màn hình
Trang 27Trang tiêu đề Mục lục
JJ II
Trang 27 / 48
Quay lui Toàn màn hình
Đóng File
phương cực tiểu
Nếu chúng ta sử dụng b là giá trị thử của β thì phương pháp
ước lượng bình phương cực tiểu là chọn giá trị của vectơ b
sao cho:
S(b) =
nXj=1(yj ư b0 ư b1xj1 ư ã ã ã bkxjk)2
= (Y ư Xb)T(Y ư Xb) → min
Đại lượng ˆβ làm cực tiểu hoá phiếm hàm S(b) được gọi là
ước lượng bình phương cực tiểu của β
Trang 28Trang tiêu đề Mục lục
JJ II
Trang 28 / 48
Quay lui Toàn màn hình
Vậy β = 1
2
Trang 29
Trang tiêu đề Mục lục
JJ II
Trang 29 / 48
Quay lui Toàn màn hình
Trang 30Trang tiêu đề Mục lục
JJ II
Trang 30 / 48
Quay lui Toàn màn hình
Trang 31Trang tiêu đề Mục lục
JJ II
Trang 31 / 48
Quay lui Toàn màn hình
Đóng File
4.2 Ước lượng các tham số chưa biết của mô hình
Y(i) = Xβ(i) + (i), i = 1, m
Bằng phương pháp bình phương cực tiểu, chúng ta cũng
nhận được:
ˆ
β(i) = (XTX)ư1XTY(i)
Trang 32Trang tiêu đề Mục lục
JJ II
Trang 32 / 48
Quay lui Toàn màn hình
Đóng File
Xét hai mô hình tuyến tính
yj1 == β01 + β11xj1 + j1
yj2 == β02 + β11xj2 + j2với số liệu cho trong bảng sau:
xj1 0 1 2 3 4
yj1 1 4 3 8 9
yj2 -1 -1 2 3 2Khi đó: ˆβ(1) = [1 2]T; ˆβ(2) = [−1 1]T
Trang 33Trang tiêu đề Mục lục
JJ II
Trang 33 / 48
Quay lui Toàn màn hình
Đóng File
Phần 4: Cây quyết định
Trang 34Trang tiêu đề Mục lục
JJ II
Trang 34 / 48
Quay lui Toàn màn hình
Trang 35Trang tiêu đề Mục lục
JJ II
Trang 35 / 48
Quay lui Toàn màn hình
Trang 36Trang tiêu đề Mục lục
JJ II
Trang 36 / 48
Quay lui Toàn màn hình
Trang 37Trang tiêu đề Mục lục
JJ II
Trang 37 / 48
Quay lui Toàn màn hình
Đóng File
2.1 Khái niệm
Cây quyết định là cấu trúc biểu diễn dưới dạng cây, mỗi
nút trong biểu diễn giá trị quyết định của thuộc tính, nhánh
biểu diễn đầu ra của quyết định và lá biểu diễn các lớp
Trang 38Trang tiêu đề Mục lục
JJ II
Trang 38 / 48
Quay lui Toàn màn hình
Đóng File
2.2 Thuật tóan CLS xây dựng cây quyết định
Giả sử tập giá trị của thuộc tính quyết định là {Y, N }
1 Tạo nút T bao gồm toàn bộ tập huấn luyện (đối tượng),
2 Nếu tất cả các mẫu (đối tượng) của T đều có giá trị
quyết định là Y thì tạo nút Y con của T và dừng,
3 Nếu tất cả các mẫu (đối tượng) của T đều có giá trị
quyết định là N thì tạo nút N con của T và dừng
4 Chọn một thuộc tính X có giá trị v1, v2, ã ã ã , vi và chia
T thành các tập con T1, T2, ã ã ã , Ti tương ứng với các
giá trị của chúng trên X, tạo i nút T1, T2, ã ã ã , Ti con
của T với X = vj là nhãn của nhánh từ T đến Tj
5 For Tj do: T ← Tj và quay lại Bước 2
Trang 39Trang tiêu đề Mục lục
JJ II
Trang 39 / 48
Quay lui Toàn màn hình
Cho bảng quyết định T = (U, C ∪D) Không mất tính tổng
quát, ta có thể xem D = {d}, Card(Vd) = k Phân hoạch
của U đối với thuộc tính d gồm các lớp: U1, U2, ã ã ã , Uk,
đặt pi = Card(Ui)
Card(U ), i = 1, ã ã ã , k
Entropy(U ) = X−pilog2pi
Trang 40Trang tiêu đề Mục lục
JJ II
Trang 40 / 48
Quay lui Toàn màn hình
Đóng File
3.2 Information gain
Cho a ∈ C, Gia lượng thông tin của U đối với thuộc tính
a, ký hiệu Gain(U, a) được định nghĩa như sau:
Gain(U, a) = Entropy(U ) ư X
v∈Va
Card(Uv)Card(U ) ì Entropy(Uv)
Trong đó, Va là tập giá trị của thuộc tính a, Uv là một lớp
trong phân hoạch của U đối với thuộc tính a, tương ứng
với giá trị v
Trang 41Trang tiêu đề Mục lục
JJ II
Trang 41 / 48
Quay lui Toàn màn hình
Đóng File
Miền giá trị của Entropy, Gain?
Tính ổn định đạt đ−ợc ứng với những giá trị nào của
Entropy, Gain?
Trang 42Trang tiêu đề Mục lục
JJ II
Trang 42 / 48
Quay lui Toàn màn hình
Đóng File
Đóng PDF
Chọn thuộc tính phân nhánh trong cây quyết định
B1 V:= U;
B2 Tính giá trị của Entropy(V );
B3 For a ∈ C do Tính giá trị của Gain(V, a);
B4 Chọn thuộc tính a có giá trị Gain(V, a) lớn nhất làm
Trang 43Trang tiêu đề Mục lục
JJ II
Trang 43 / 48
Quay lui Toàn màn hình
Đóng File
M ileage
U W eight Door Size Cylinder Mileage
u1 low 2 compact 4 high
u2 low 4 sub 6 low
u3 medium 4 compact 4 high
u4 high 2 compact 6 low
u5 high 4 compact 4 low
u6 low 4 compact 4 high
u7 high 4 sub 6 low
u8 low 2 sub 6 low
Trang 44Trang tiêu đề Mục lục
JJ II
Trang 44 / 48
Quay lui Toàn màn hình
Gain(U, Door) = Entropy(U )−
(3
8Entropy(U2) +
5
8Entropy(U4))Gain(U, Size) = Entropy(U )−
(5
8Entropy(Ucompact) +
3
8Entropy(Usub))Gain(U, Cylinder) = Entropy(U )−
(4
8Entropy(U4) +
4
8Entropy(U6))
Trang 45Trang tiêu đề Mục lục
JJ II
Trang 45 / 48
Quay lui Toàn màn hình
Đóng File
Luật quyết định nhận đ−ợc?
Trang 46Trang tiêu đề Mục lục
JJ II
Trang 46 / 48
Quay lui Toàn màn hình
Entropy(U ) = −(12 log2 12 + 12 log2 12) = 1
Gain(U,Đau đầu) = −12(13 log2 13 + 23 log2 23) − 12(13 log2 13 +
2
3 log2 23) = log23 − 23 ' 0.918
Gain(U,Đau cơ) = −56(35 log2 35+25 log2 25) −16 log2 1 ' 0.809
Gain(U,Thân nhiệt) = −13(log21) − 13(12 log2 12 + 12 log2 12) −
1
3(log2 1) = 13 ' 0.667
Trang 47Trang tiêu đề Mục lục
JJ II
Trang 47 / 48
Quay lui Toàn màn hình
Đóng File
Như vậy, bước phân nhánh đầu tiên, chúng ta chọn thuộc
tính "Thân nhiệt" Với thuộc tính này có 3 giá trị: "Bình
thường", "Cao", "Rất cao" Do đó, có 3 nhánh tương ứng
với 3 nút trong: U1 = {u1, u4} (có cùng giá trị quyết định
là "Không"); U2 = {u2, u5} và U3 = {u3, u6} (có cùng giá
trị quyết định "Có")
Lượt phân nhánh tiếp theo chúng ta xét nút U2:
Entropy(U2) = ư(12(log2) + 12(log2) = 1
Gain(U2,Đau đầu) = ư12(log21 + log21) = 0
Gain(U2,Đau cơ) = ư12(log21 + log21) = 0
⇒ Chọn thuộc tính "Đau đầu" hay "Đau cơ" như nhau
Trang 48Trang tiêu đề Mục lục
JJ II
Trang 48 / 48
Quay lui Toàn màn hình