phân lớp và dự đoán (2)

Dự ĐOÁN LÀ GÌ? Có thể dùng phân lớp và dự đoán để xác lập mô  Có thể dùng phân lớp và dự đoán để xác lập mô hình nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tư

Trang 1

Â À Á

Trang 3

PHÂN LớP LÀ GÌ ? Dự ĐOÁN LÀ GÌ?

 Có thể dùng phân lớp và dự đoán để xác lập mô

 Có thể dùng phân lớp và dự đoán để xác lập mô hình nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai

 Phân lớp(classification): Tạo ra bộ phân lớp/ mô hình.

 Dự đoán (prediction): Dựa vào bộ phân lớp để dự đoán nhãn của các mẫu chưa biết nhãn.

Trang 4

huấn luyện được phân yệ ợ p

tích bởi thuật tóan phân

lớp ( có thuộc tính nhãn

lớp) để tạo ra bộ phân lớp

tra được dùng để ước

Trang 5

Phân lớp là gì? Dự đoán là gì ?

tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp

mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng

of number total

sample test

classified correctly

Accuracy 

Trang 6

 Phân tích liên quan (chọn đặc trưng)

 Các thuộc tính không liên quan

 Các thuộc tính dư thừa

 Biến đổi dữ liệu

Trang 7

S O SÁNH CÁC PHƯƠNG PHÁP PHÂN LỚP

lớp dự đoán đúng dữ liệu chưa biết trước nhãn

hiện dự đoán đúng với dữ liệu nhiễu hay thiếu giá trị

phân lớp hiệu quả với số lượng dữ liệu lớn

thức có thể hiểu được

Trang 8

C ÂY QUYẾT ĐỊNH

Trang 9

C ÂY QUYẾT ĐỊNH

Cây quyết định là cấu trúc cây sao cho: y q y y

 Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính

 Mỗi nhánh biểu diễn kết quả phép kiểm tra

 Các nút lá biểu diễn các lớp hay các phân bố lớp

 Nút cao nhất trong cây là nút gốc.

Trang 10

C ÂY QUYẾT ĐỊNH : VÍ DỤ

Cây quyết định: có mua computer? Dựa vào các thuộc tính tuổi,

sinh viên, Uy tín

Trang 11

Sườn chung về quy nạp trên cây quyết định

1 Chọn thuộc tính “tốt nhất” theo một độ đo chọn lựa cho trước ọ ộ ộ ộ ọ ự

2 Mở rộng cây bằng cách thêm các nhánh mới cho từng giá trị thuộc tính

e2 yes high yes Headache

normal high very high

Headache

no

{e1, e4}

{e2, e5} {e3,e6}

e3 yes very high yes

e4 no normal no

e5 no high no

yes {e2} no{e5} {e3}yes no{e6}

e6 no very high no yes no y

Trang 12

C HIẾN LƯỢC CƠ BẢN

 Bắt đầu từ nút đơn biểu diễn tất cả các mẫu

 Dùng đệ quy cùng một quá trình để tạo cây quyết định

 Tiến trình kết thúc chỉ khi bất kỳ điều kiện nào sau đây làđúng

 Tất cả các mẫu cho một nút cho trước đều thuộc về cùng một lớp.

 Không còn thuộc tính nào mà mẫu có thể dựa vào để phân hoạch xa hơn.

 Không còn mẫu nào cho nhánh test_attribute = ai

Trang 13

B ẢNG DỮ LIỆU HUẤN LUYỆN

Day Outloook Temp Humidity Wind PlayTennis

D3 Overcast Hot High Weak Yes D3 Overcast Hot High Weak Yes

D5 Rain Cool Normal Weak Yes D6 6 Rain Ra Cool Coo Normal o a Strong St o g No o D7 Overcast Cool Normal Strong Yes

D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes

Trang 14

C ÂY QUYẾT ĐỊNH CHO BÀI TOÁN CHƠI TENNIS

temperature p

cool hot mild

sunny rain o cast

Trang 15

C ÂY QUYẾT ĐỊNH ĐƠN GIẢN

Trang 16

T HUỘC TÍNH NÀO LÀ TỐT NHẤT ?

Nếu các thuộc tính A1 và A2 (mỗi thuộc tính có 2 giá trị) tách S thành các

Nút quyết định S có 29 mẫu thuộc lớp cộng (+) và 35 mẫu thuộc lớp trừ

Trang 17

Outlook(O) :

D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes

Trang 19

C ÂY QUYẾT ĐỊNH CUỐI CÙNG

Day Temp Humidity Wind PlayTennis

D1 Hot High Weak No D2 Hot High Strong No D8 Mild High Weak No

Day Temp Humidity Wind PlayTennis

D4 Mild High Weak Yes D5 Cool Normal Weak Yes D6 Cool Normal Strong No

C ÂY QUYẾT ĐỊNH CUỐI CÙNG

1 If Outlook = Overcast then Yes

2 If Outlook = Sunny and Humidity = High then No

3 If Outlook = Sunny and Humidity = Normal then Yes

4 If Outlook = Rain and Wind = Strong then No

5 If Outlook = Rain and Wind= Weak then Yes

Trang 20

E NTROPY

Entropy đặc trưng độ hỗn tạp (tinh khiết) của tập bất kỳ các ví dụ.

S là tập các mẫu thuộc lớp âm và lớp dương

P là tỷ lệ các mẫu thuộc lớp dương trong S

p là tỷ lệ các mẫu thuộc lớp âm trong S

Entropy(S) = -p log py( ) p g22p p-p log p g22p p

Trang 21

Ví dụ, nếu tất cả các thành viên đều thuộc về lớp dương thì :

Entropy(S) = -N/N log2(N/N) - 0 = -1.0 – 0 = 0 (N là số mẫu)

2 Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành viên thuộc

2 Entropy là 1 nếu tập hợp chứa số lượng bằng nhau các thành viên thuộclớp dương và lớp âm Nếu các số này là khác nhau, entropy sẽ nằm giữa 0 và

1

Trang 22

I NFORMATION G AIN

Ta định nghĩa độ đo information gain , phản ánh mức độ hiệu quả của một thuộc tính trong phân lớp Đó là sự rút giảm mong muốn của entropy gây ra bởi sự phân hoạch các ví dụ theo thuộc tính này

) Entropy(S

S Entropy(S)

A)

S

Entropy(S) A)

Giá trị Value(A) là tập các giá trị có thể cho thuộc tính A, và

Sv là tập con của S mà A nhận giá trị v.

Trang 23

I NFORMATION G AIN

Values(Wind) = {Weak Strong} S = [9+ 5 ]

Sweak là nút con với trị “weak” là [6+, 2-]

Sstrong là nút con với trị “strong”, là [3+, 3-]

Gain(S, Wind) = Entropy(S)

-= Entropy(S) - (8/14)Entropy(Sweak)

)

Entropy(S S

Trang 24

Thuộc tính nào là phân lớp tốt nhất?

= 151 = 048 940 (8/14).811 (6/14)1.00

Trang 25

I NFORMATION GAIN CỦA TẤT CẢ CÁC

Í THUỘC TÍNH

Gain (S, Outlook) = 0.246 Gain (S, Humidity) = 0.151

G i (S Wi d) 0 048 Gain (S, Wind) = 0.048 Gain (S, Temperature) = 0.029 ( , p )

Trang 26

Bước kế tiếp trong tiến trình tăng trưởng

trên cây quyết định

Trang 27

Lưu ý: Thuật toán ID3 dùng Information Gain và C4 5 thuật

Lưu ý: Thuật toán ID3 dùng Information Gain và C4.5, thuật toán được phát triển sau nó, dùng Gain Ratio (một biến thể của Information Gain)

Trang 28

Các thuộc tính với nhiều giá trị

 Nếu thuộc tính có nhiều giá trị (ví dụ, các ngày trong tháng)

ID3 sẽ chọn nó

 C4.5 dùng GainRatio

A)

Gain(S, )

(

S log

S A)

mation(S SplitInfor

A) mation(S, SplitInfor

A)

Gain(S, A)

S, GainRatio(

i i

A) mation(S,

i Value A

Trang 30

P HÂN LỚP B AYES

Trang 31

P HÂN LỚP B AYES

thành viên của lớp, chẳng hạn xác suất mẫu cho trước thuộc về một lớp xác định

ế

công năng với Bộ phân lớp cây quyết định và mạng nơron Chúng giả định các thuộc tính là độc lập nhau (độc lập điều kiện lớp)

Trang 32

Đ ỊNH LÝ B AYES

 X là mẫu dữ liệu chưa biết nhãn lớpp

 H là giả thuyết sao cho X thuộc về lớp C

 Ấn định xác suất hậu nghiệm (posterior probability) P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X)

 Giả sử thế giới các mẫu dữ liệu gồm trái cây, được mô tả

bằng màu sắc và hình dáng.

- Giả sử X là màu đỏ và hình tròn

- H là giả thuyết mà X là quả táo H là giả thuyết mà X là quả táo

- Thì P(H|X) phản ánh độ tin cậy X là quả táo khi biết trước X có màu đỏ và hình tròn

Trang 33

| P(H 

 Khi có n giả thuyết

| P(X

) )P(H H

|

P(X X)

| P(H

j 1P(X | Hj)P(Hj)

Trang 34

P HÂN LỚP N ẠVE B AYESIAN (NBC)

 Mỗi mẫu dữ liệu được biểu diễn bằng X= (x ệ ợ g ( 11, x , 22,…, x , , nn) ) với các thuộc tính A1, A2,…, An

 Các lớp C1, C2, …, Cm Cho trước mẫu chưa biết X NBC

á X à C khi à hỉ khi P(C |X) P(C |X) ới 1  j 

gán X vào Ci khi và chỉ khi P(Ci|X) > P(Cj|X) với 1  j  m,

j  i Do vậy, chúng ta cực đại P(Ci|X) Lớp Ci sao cho P(Cii|X) là cực đại được gọi là giả thuyết hậu nghiệm cực đại (maximum posterior hypothesis) Theo định lý Bayes

) )P(C C

|

P(X

P(X)

) )P(C C

|

P(X X)

|

i 

Trang 35

P HÂN LỚP N ẠVE B AYESIAN

 Do P(X) l à h ằng cho tất cả các lớp, chỉ cần cực đại P(X|Ci) P(Ci) Nếu chưa biết P(Ci) cần giả định P(C1)=P(C2)=…= P(Cm) và chúng ta sẽ cực đại P(X|Ci) Ngược lại, ta cực đại P(X|Ci) P(Ci)

 Nếu m là lớn, sẽ rất tốn kém khi tính P(X|Ci) P(Ci) NBC giả định độc lập điều kiện lớp

) C

| P(x )

C

|

1 k

k

i  

1

k 

Trang 36

 Cĩ thể phỏng tính P(x1|Ci), …, P(xn|Ci) từ các mẫu huấn luyện

Nếu Ak được phân lớp thì P(xk|Ci) = sik/si với sik là

Nếu Ak được phân lớp thì P(xk|Ci) sik/si với sik là

số mẫu huấn luyện của Ci cĩ trị xk cho Ak và si là số các mẫu thuộc về lớp Ci

Nếu Ak là liên tục thì nĩ được giả định cĩ phân bố Gaussian

2 i C

2 i C k

i i

2σ

) μ (x

C C

k i

2

1 )

σ , μ , g(x )

C

| P(x

C

2πσ

Trang 37

 Để phân lớp mẫu chưa biết X, ta tính P(X|C p p , ( | ii) ) P(Ci) cho từng Ci Sau đĩ mẫu X được gán vào Ciiff P(Ci|X) > P(Cj|X) for 1  j  m, j  i

 Nĩi cách khác, NBC gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại

Trang 38

V Í DỤ : XÉT CSDL THỜI TIẾT

D7 Overcast Cool Normal Strong Yes

D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes

Trang 39

D Á Ã Ớ Ớ Â Ớ B

D Ự BÁO NHÃN LỚP VỚI PHÂN LỚP B AYESIAN

 Với X = (O = Sunny, Temp = Hot, Humidity = Normal, Wind = Weak)

P(Yes | X) = P(No | X) =

567

89

*9

*14

6

*6

*2

*

875

6 5

* 5

* 14

2

* 1

* 2

* 3

*

5679

*9

*

Trang 40

T HUẬT TOÁN ILA

Trang 41

T HUẬT TỐN ILA

Nếu tất cả các dòng đều khóa

 Nếu còn bảng con thì qua bảng con tiếp theo và quay lại bước 2

 Ngược lại chấm dứt thuật toán

Ngược lại (nghĩa là vẫn còn dòng chưa khóa trong bảng con đang xét) thì quay lại bước 4.

Trang 42

V Í DỤ MINH HỌA ILA

Trang 46

V Í DỤ ILA ( TT )

IF Màu sắc = Xanh lá THEN Quyết định = Mua

IF Kích cỡ = Vừa THEN Quyết định = Mua

Trang 47

V Í DỤ ILA ( TT )

IF Màu sắc = Xanh lá THEN Quyết định = Mua

IF Kích cỡ = Vừa THEN Quyết định = Mua

IF Hình dáng= Cầu THEN Quyết định = Mua

IF Hình dáng Cầu THEN Quyết định Mua

Trang 50

IF Hình dáng = Nón THEN Quyết định = Không mua

IF Kích cỡ = Lớn AND Màu sắc = Đỏ THEN Quyết định = Không mua y ị g

Định dạng
Số trang	50
Dung lượng	771,58 KB