Dự ĐOÁN LÀ GÌ? Có thể dùng phân lớp và dự đoán để xác lập mô Có thể dùng phân lớp và dự đoán để xác lập mô hình nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tư
Trang 1Â À Á
Trang 3PHÂN LớP LÀ GÌ ? Dự ĐOÁN LÀ GÌ?
Có thể dùng phân lớp và dự đoán để xác lập mô
Có thể dùng phân lớp và dự đoán để xác lập mô hình nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai
Phân lớp(classification): Tạo ra bộ phân lớp/ mô hình.
Dự đoán (prediction): Dựa vào bộ phân lớp để dự đoán nhãn của các mẫu chưa biết nhãn.
Trang 4huấn luyện được phân yệ ợ p
tích bởi thuật tóan phân
lớp ( có thuộc tính nhãn
lớp) để tạo ra bộ phân lớp
tra được dùng để ước
Trang 5Phân lớp là gì? Dự đoán là gì ?
tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp
mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng
of number total
sample test
classified correctly
Accuracy
Trang 6 Phân tích liên quan (chọn đặc trưng)
Các thuộc tính không liên quan
Các thuộc tính dư thừa
Biến đổi dữ liệu
Trang 7S O SÁNH CÁC PHƯƠNG PHÁP PHÂN LỚP
S O SÁNH CÁC PHƯƠNG PHÁP PHÂN LỚP
lớp dự đoán đúng dữ liệu chưa biết trước nhãn
hiện dự đoán đúng với dữ liệu nhiễu hay thiếu giá trị
phân lớp hiệu quả với số lượng dữ liệu lớn
thức có thể hiểu được
Trang 8C ÂY QUYẾT ĐỊNH
Trang 9C ÂY QUYẾT ĐỊNH
Cây quyết định là cấu trúc cây sao cho: y q y y
Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính
Mỗi nhánh biểu diễn kết quả phép kiểm tra
Mỗi nhánh biểu diễn kết quả phép kiểm tra
Các nút lá biểu diễn các lớp hay các phân bố lớp
Nút cao nhất trong cây là nút gốc.
Trang 10C ÂY QUYẾT ĐỊNH : VÍ DỤ
Cây quyết định: có mua computer? Dựa vào các thuộc tính tuổi,
sinh viên, Uy tín
Trang 11Sườn chung về quy nạp trên cây quyết định
1 Chọn thuộc tính “tốt nhất” theo một độ đo chọn lựa cho trước ọ ộ ộ ộ ọ ự
2 Mở rộng cây bằng cách thêm các nhánh mới cho từng giá trị thuộc tính
e2 yes high yes Headache
normal high very high
Headache
no
{e1, e4}
{e2, e5} {e3,e6}
e3 yes very high yes
e4 no normal no
e5 no high no
yes {e2} no{e5} {e3}yes no{e6}
e6 no very high no yes no y
Trang 12C HIẾN LƯỢC CƠ BẢN
Bắt đầu từ nút đơn biểu diễn tất cả các mẫu
Dùng đệ quy cùng một quá trình để tạo cây quyết định
Tiến trình kết thúc chỉ khi bất kỳ điều kiện nào sau đây làđúng
Tất cả các mẫu cho một nút cho trước đều thuộc về cùng một lớp.
Không còn thuộc tính nào mà mẫu có thể dựa vào để phân hoạch xa hơn.
Không còn mẫu nào cho nhánh test_attribute = ai
Trang 13B ẢNG DỮ LIỆU HUẤN LUYỆN
B ẢNG DỮ LIỆU HUẤN LUYỆN
Day Outloook Temp Humidity Wind PlayTennis
D3 Overcast Hot High Weak Yes D3 Overcast Hot High Weak Yes
D5 Rain Cool Normal Weak Yes D6 6 Rain Ra Cool Coo Normal o a Strong St o g No o D7 Overcast Cool Normal Strong Yes
D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes
Trang 14C ÂY QUYẾT ĐỊNH CHO BÀI TOÁN CHƠI TENNIS
temperature p
cool hot mild
sunny rain o cast
Trang 15C ÂY QUYẾT ĐỊNH ĐƠN GIẢN
C ÂY QUYẾT ĐỊNH ĐƠN GIẢN
Trang 16T HUỘC TÍNH NÀO LÀ TỐT NHẤT ?
T HUỘC TÍNH NÀO LÀ TỐT NHẤT ?
Nếu các thuộc tính A1 và A2 (mỗi thuộc tính có 2 giá trị) tách S thành các
Nút quyết định S có 29 mẫu thuộc lớp cộng (+) và 35 mẫu thuộc lớp trừ
Trang 17Outlook(O) :
D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes
Trang 19C ÂY QUYẾT ĐỊNH CUỐI CÙNG
Day Temp Humidity Wind PlayTennis
D1 Hot High Weak No D2 Hot High Strong No D8 Mild High Weak No
Day Temp Humidity Wind PlayTennis
D4 Mild High Weak Yes D5 Cool Normal Weak Yes D6 Cool Normal Strong No
C ÂY QUYẾT ĐỊNH CUỐI CÙNG
1 If Outlook = Overcast then Yes
2 If Outlook = Sunny and Humidity = High then No
3 If Outlook = Sunny and Humidity = Normal then Yes
4 If Outlook = Rain and Wind = Strong then No
4 If Outlook = Rain and Wind = Strong then No
5 If Outlook = Rain and Wind= Weak then Yes
Trang 20E NTROPY
Entropy đặc trưng độ hỗn tạp (tinh khiết) của tập bất kỳ các ví dụ.
S là tập các mẫu thuộc lớp âm và lớp dương
P là tỷ lệ các mẫu thuộc lớp dương trong S
p là tỷ lệ các mẫu thuộc lớp âm trong S
Entropy(S) = -p log py( ) p g22p p-p log p g22p p
Trang 21Ví dụ, nếu tất cả các thành viên đều thuộc về lớp dương thì :
Entropy(S) = -N/N log2(N/N) - 0 = -1.0 – 0 = 0 (N là số mẫu)
2 Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành viên thuộc
2 Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành viên thuộclớp dương và lớp âm Nếu các số này là khác nhau, entropy sẽ nằm giữa 0 và
1
Trang 22I NFORMATION G AIN
I NFORMATION G AIN
Ta định nghĩa độ đo information gain , phản ánh mức độ hiệu quả của một thuộc tính trong phân lớp Đó là sự rút giảm mong muốn của entropy gây ra bởi sự phân hoạch các ví dụ theo thuộc tính này
) Entropy(S
S Entropy(S)
A)
S
Entropy(S) A)
Giá trị Value(A) là tập các giá trị có thể cho thuộc tính A, và
Sv là tập con của S mà A nhận giá trị v.
Trang 23I NFORMATION G AIN
Values(Wind) = {Weak Strong} S = [9+ 5 ]
Sweak là nút con với trị “weak” là [6+, 2-]
Sstrong là nút con với trị “strong”, là [3+, 3-]
Gain(S, Wind) = Entropy(S)
-= Entropy(S) - (8/14)Entropy(Sweak)
)
Entropy(S S
Trang 24Thuộc tính nào là phân lớp tốt nhất?
= 151 = 048 940 (8/14).811 (6/14)1.00
Trang 25I NFORMATION GAIN CỦA TẤT CẢ CÁC
Í THUỘC TÍNH
Gain (S, Outlook) = 0.246 Gain (S, Humidity) = 0.151
G i (S Wi d) 0 048 Gain (S, Wind) = 0.048 Gain (S, Temperature) = 0.029 ( , p )
Trang 26Bước kế tiếp trong tiến trình tăng trưởng
trên cây quyết định
Trang 27Lưu ý: Thuật toán ID3 dùng Information Gain và C4 5 thuật
Lưu ý: Thuật toán ID3 dùng Information Gain và C4.5, thuật toán được phát triển sau nó, dùng Gain Ratio (một biến thể của Information Gain)
Trang 28Các thuộc tính với nhiều giá trị
Nếu thuộc tính có nhiều giá trị (ví dụ, các ngày trong tháng)
ID3 sẽ chọn nó
C4.5 dùng GainRatio
A)
Gain(S, )
(
S log
S A)
mation(S SplitInfor
A) mation(S, SplitInfor
A)
Gain(S, A)
S, GainRatio(
i i
A) mation(S,
i Value A
Trang 30P HÂN LỚP B AYES
Trang 31P HÂN LỚP B AYES
thành viên của lớp, chẳng hạn xác suất mẫu cho trước thuộc về một lớp xác định
ế
công năng với Bộ phân lớp cây quyết định và mạng nơron Chúng giả định các thuộc tính là độc lập nhau (độc lập điều kiện lớp)
Trang 32Đ ỊNH LÝ B AYES
X là mẫu dữ liệu chưa biết nhãn lớpp
H là giả thuyết sao cho X thuộc về lớp C
Ấn định xác suất hậu nghiệm (posterior probability) P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X)
Giả sử thế giới các mẫu dữ liệu gồm trái cây, được mô tả
bằng màu sắc và hình dáng.
- Giả sử X là màu đỏ và hình tròn
- H là giả thuyết mà X là quả táo H là giả thuyết mà X là quả táo
- Thì P(H|X) phản ánh độ tin cậy X là quả táo khi biết trước X có màu đỏ và hình tròn
Trang 33| P(H
Khi có n giả thuyết
| P(X
) )P(H H
|
P(X X)
| P(H
j 1P(X | Hj)P(Hj)
Trang 34P HÂN LỚP N ẠVE B AYESIAN (NBC)
P HÂN LỚP N ẠVE B AYESIAN (NBC)
Mỗi mẫu dữ liệu được biểu diễn bằng X= (x ệ ợ g ( 11, x , 22,…, x , , nn) ) với các thuộc tính A1, A2,…, An
Các lớp C1, C2, …, Cm Cho trước mẫu chưa biết X NBC
á X à C khi à hỉ khi P(C |X) P(C |X) ới 1 j
gán X vào Ci khi và chỉ khi P(Ci|X) > P(Cj|X) với 1 j m,
j i Do vậy, chúng ta cực đại P(Ci|X) Lớp Ci sao cho P(Cii|X) là cực đại được gọi là giả thuyết hậu nghiệm cực đại (maximum posterior hypothesis) Theo định lý Bayes
) )P(C C
|
P(X
P(X)
) )P(C C
|
P(X X)
|
i
Trang 35P HÂN LỚP N ẠVE B AYESIAN
Do P(X) l à h ằng cho tất cả các lớp, chỉ cần cực đại P(X|Ci) P(Ci) Nếu chưa biết P(Ci) cần giả định P(C1)=P(C2)=…= P(Cm) và chúng ta sẽ cực đại P(X|Ci) Ngược lại, ta cực đại P(X|Ci) P(Ci)
Nếu m là lớn, sẽ rất tốn kém khi tính P(X|Ci) P(Ci) NBC giả định độc lập điều kiện lớp
) C
| P(x )
C
|
1 k
k
i
1
k
Trang 36P HÂN LỚP N ẠVE B AYESIAN
Cĩ thể phỏng tính P(x1|Ci), …, P(xn|Ci) từ các mẫu huấn luyện
Nếu Ak được phân lớp thì P(xk|Ci) = sik/si với sik là
Nếu Ak được phân lớp thì P(xk|Ci) sik/si với sik là
số mẫu huấn luyện của Ci cĩ trị xk cho Ak và si là số các mẫu thuộc về lớp Ci
Nếu Ak là liên tục thì nĩ được giả định cĩ phân bố Gaussian
2 i C
2 i C k
i i
2σ
) μ (x
C C
k i
2
1 )
σ , μ , g(x )
C
| P(x
C
2πσ
Trang 37P HÂN LỚP N ẠVE B AYESIAN
Để phân lớp mẫu chưa biết X, ta tính P(X|C p p , ( | ii) ) P(Ci) cho từng Ci Sau đĩ mẫu X được gán vào Ciiff P(Ci|X) > P(Cj|X) for 1 j m, j i
Nĩi cách khác, NBC gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại
Trang 38V Í DỤ : XÉT CSDL THỜI TIẾT
V Í DỤ : XÉT CSDL THỜI TIẾT
D7 Overcast Cool Normal Strong Yes
D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes
Trang 39D Á Ã Ớ Ớ Â Ớ B
D Ự BÁO NHÃN LỚP VỚI PHÂN LỚP B AYESIAN
Với X = (O = Sunny, Temp = Hot, Humidity = Normal, Wind = Weak)
P(Play = yes) = 9/14 P(Play = no) = 5/14 P(O = Sunny| Play = Yes) = 2/9 P(O = Sunny| Play = No) = 3/5 P(T H t|Pl Y ) 2/9 P(T H t | Pl N ) 2/5 P(T = Hot|Play = Yes) = 2/9 P(T = Hot | Play = No) = 2/5 P(H = Normal | Play = Yes) = 6/9 P(H = Normal | Play = No) = 1/5 P(W = Weak | Play = Yes) = 6/9 P(W = Weak | Play = No) = 2/5 P(W = Weak | Play = Yes) = 6/9 P(W = Weak | Play = No) = 2/5
P(Yes | X) = P(No | X) =
567
89
*9
*9
*9
*14
6
*6
*2
*2
*
875
6 5
* 5
* 5
* 5
* 14
2
* 1
* 2
* 3
*
5679
*9
*9
*9
*
Trang 40T HUẬT TOÁN ILA
Trang 41T HUẬT TỐN ILA
T HUẬT TỐN ILA
Nếu tất cả các dòng đều khóa
Nếu còn bảng con thì qua bảng con tiếp theo và quay lại bước 2
Ngược lại chấm dứt thuật toán
Ngược lại (nghĩa là vẫn còn dòng chưa khóa trong bảng con đang xét) thì quay lại bước 4.
Trang 42V Í DỤ MINH HỌA ILA
Trang 46V Í DỤ ILA ( TT )
IF Màu sắc = Xanh lá THEN Quyết định = Mua
IF Kích cỡ = Vừa THEN Quyết định = Mua
Trang 47V Í DỤ ILA ( TT )
IF Màu sắc = Xanh lá THEN Quyết định = Mua
IF Kích cỡ = Vừa THEN Quyết định = Mua
IF Hình dáng= Cầu THEN Quyết định = Mua
IF Hình dáng Cầu THEN Quyết định Mua
Trang 50IF Hình dáng = Nón THEN Quyết định = Không mua
IF Kích cỡ = Lớn AND Màu sắc = Đỏ THEN Quyết định = Không mua y ị g