1. Trang chủ
  2. » Giáo án - Bài giảng

Giáo án - Bài giảng: Công nghệ thông tin: Giới thiệu về cây ra quyết định ( Giành cho người lãnh đạo đơn vị)

48 780 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Giới thiệu về cây ra quyết định (Giành cho người lãnh đạo đơn vị)
Tác giả Đỗ Thanh Nghị
Trường học Trường Đại Học Cần Thơ
Chuyên ngành Công nghệ thông tin
Thể loại Giấy chứng nhận tốt nghiệp
Năm xuất bản 2008
Thành phố Cần Thơ
Định dạng
Số trang 48
Dung lượng 1,57 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Cây quyết định lớp các giải thuật học  kết quả sinh ra dễ dịch if … then …  khá đơn giản, nhanh, hiệu quả được sử dụng nhiều  liên tục trong nhiều năm qua, cây quyết định được bình c

Trang 1

Trường Đại Học Cần Thơ

Đỗ Thanh Nghị

dtnghi@cit.ctu.edu.vn

Phương pháp học cây quyết định

Decision Tree

Trang 2

 Giới thiệu về cây quyết định

 Giải thuật học của cây quyết định

 Kết luận và hướng phát triển

2

Trang 3

Giới thiệu về cây quyết định

 Giải thuật học của cây quyết định

 Kết luận và hướng phát triển

Trang 4

Cây quyết định

 lớp các giải thuật học

 kết quả sinh ra dễ dịch (if … then …)

 khá đơn giản, nhanh, hiệu quả được sử dụng nhiều

 liên tục trong nhiều năm qua, cây quyết định được bình chọn

là giải thuật được sử dụng nhiều nhất và thành công nhất

 giải quyết các vấn đề của phân loại, hồi quy

 làm việc cho dữ liệu số và loại

 được ứng dụng thành công trong hầu hết các lãnh vực về

phân tích dữ liệu, phân loại text, spam, phân loại gien, etc

 có rất nhiều giải thuật sẵn dùng : C4.5 (Quinlan, 1993),

CART (Breiman et al., 1984), etc

4

Trang 5

Kỹ thuật DM thành công

trong ứng dụng thực (2004)

Trang 6

 Giới thiệu về cây quyết định

Giải thuật học của cây quyết định

 Kết luận và hướng phát triển

6

Trang 7

Giải thuật học cây quyết định

 1 nút trong : test trên 1 thuộc tính (biến)

 1 nhánh : trình bày cho dữ liệu thỏa mãn test, ví dụ :

age < 25.

 nút lá : lớp (nhãn)

 ở mỗi nút, 1 thuộc tính được chọn để phân hoạch dữ

liệu học sao cho tách rời các lớp tốt nhất có thể

 dữ liệu mới đến được phân loại theo đường dẫn từ

Trang 8

tính (Outlook, Temp, Humidity, Windy), quyết định (play/no)

No True

High Mild

Rainy

Yes False

Normal Hot

Overcast

Yes True

High Mild

Overcast

Yes True

Normal Mild

Sunny

Yes False

Normal Mild

Rainy

Yes False

Normal Cool

Sunny

No False

High Mild

Sunny

Yes True

Normal Cool

Overcast

No True

Normal Cool

Rainy

Yes False

Normal Cool

Rainy

Yes False

High Mild

Rainy

Yes False

High Hot

Overcast

No True

High Hot

Sunny

No False

High Hot

Sunny

Play Windy

Humidity Temp

Outlook

Trang 9

dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy)

Trang 10

Giải thuật cây quyết định

 xây dựng cây Top-down

Trang 11

Chọn thuộc tính phân hoạch

 ở mỗi nút, các thuộc tính được đánh giá dựa trên phân tách dữliệu học tốt nhất có thể

 việc đánh giá dựa trên

 độ lợi thông tin, information gain (ID3/C4.5)

 information gain ratio

 chỉ số gini, gini index (CART)

Trang 12

Chọn thuộc tính phân hoạch ?

Trang 13

Chọn thuộc tính phân hoạch ?

 thuộc tính nào tốt ?

 cho ra kết quả là cây nhỏ nhất

 heuristics: chọn thuộc tính sinh ra các nút “purest” (thuần

khiết)

 độ lợi thông tin

 tăng với giá trị trung bình thuần khiết của các tập con của

dữ liệu mà thuộc tính sinh ra

 chọn thuộc tính có độ lợi thông tin lớn nhất

Trang 14

Độ lợi thông tin

thông tin được đo lường bằng bits

 cho 1 phân phối xác suất, thông tin cần thiết để dự đoán 1

sự kiện là entropy

 công thức tính entropy:

n n

p p

entropy( 1 2    1 1  2 2

Trang 15

Born: 30 April 1916

Died: 23 February 2001

“Father of information theory”

*Claude Shannon

Trang 16

Ví dụ : thuộc tính outlook

No true

high mild

rain

Yes false

normal hot

overcast

Yes true

high mild

overcast

Yes true

normal mild

sunny

Yes false

normal mild

rain

Yes false

normal cool

sunny

No false

high mild

sunny

Yes true

normal cool

overcast

No true

normal cool

rain

Yes false

normal cool

rain

Yes false

high mild

rain

Yes false

high hot

overcast

No true

high hot

sunny

No false

high hot

sunny

Play?

Windy Humidity

Temperature

Outlook

No true

high mild

rain

Yes false

normal hot

overcast

Yes true

high mild

overcast

Yes true

normal mild

sunny

Yes false

normal mild

rain

Yes false

normal cool

sunny

No false

high mild

sunny

Yes true

normal cool

overcast

No true

normal cool

rain

Yes false

normal cool

rain

Yes false

high mild

rain

Yes false

high hot

overcast

No true

high hot

sunny

No false

high hot

sunny

Play?

Windy Humidity

Temperature

Outlook

Trang 17

5/3log(

5/3)5/2log(

5/25,3/5)

entropy(2/

)

bits0

)0log(

0)1log(

10)

entropy(1,)

bits971

.0)

5/2log(

5/2)5/3log(

5/35,2/5)

entropy(3/

)

chú ý : log(0) không xác định nhưng 0*log(0)

là 0

971

0)14/5(0)14/4(971

0)14/5([3,2])[4,0],

,

Trang 18

Độ lợi thông tin

 độ lợi thông tin của outlook

(trước khi phân hoạch) – (sau khi phân hoạch)

0.693-

0.940[3,2])

[4,0],,

info([2,3]

)info([9,5]

-)Outlook"

bits247

.0

Trang 19

Thuộc tính humidity

 “Humidity” = “High”:

 “Humidity” = “Normal”:

 thông tin của thuộc tính humidity

 độ lợi thông tin của thuộc tính humidity

bits 985

0 ) 7 / 4 log(

7 / 4 ) 7 / 3 log(

7 / 3 7,4/7)

entropy(3/

)

bits 592

0 )

7 / 1 log(

7 / 1 ) 7 / 6 log(

7 / 6 7,1/7)

entropy(6/

)

592 0 ) 14 / 7 ( 985 0 ) 14 / 7 ( [6,1]) ,

Trang 20

Độ lợi thông tin

 độ lợi thông tin của các thuộc tính

(trước khi phân hoạch) – (sau khi phân hoạch)

bits247

.0)

Outlook"

bits029

.0)

e"

Temperatur

bits152

.0)

Humidity"

bits048

.0)

Windy"

Trang 21

Tiếp tục phân hoạch dữ liệu

bits971

.0)

Humidity"

gain(" 

Trang 22

Kết quả

 chú ý : có thể có nút lá không thuần khiết

 phân hoạch dừng khi dữ liệu không thể phân hoạch, nhãn được gán cho lớp lớn nhất chứa trong nút lá

Trang 23

Tính chất của độ đo thuần khiết

 3 tính chất

 khi 1 nút là thuần khiết thì độ đo nên bằng 0

 khi độ hỗn loạn là maximal thì độ đo thuần khiết phải

maximal

độ đo phải có tính chất multistage

 entropy là hàm thỏa mãn các tính chất trên!

,4])measure([3(7/9)

,7])measure([2,3,4])

Trang 24

Tính chất của entropy

 tính chất multistage

 đơn giản hóa trong tính toán

 chú ý : thay vì tính cực đại độ lợi thông tin, chúng ta có thể chỉ

tính cực tiểu thông tin

)entropy(

)(

)entropy(

)

entropy(

r q

r , r q

q r

q r

9/4)9/3log(

9/3)9/2log(

9/2])

4,3,2([

9/]9log94log43log32log2

Trang 25

Thuộc tính có nhiều giá trị phân nhánh

 thuộc tính có nhiều giá trị phân nhánh

 tập con thường có tính thuần khiết nếu có nhiều giá trị

 độ lợi thông tin : thường là những thuộc tính có nhiều giátrị phân nhánh

điều này thường dẫn đến overfitting

Trang 26

Tập Weather với ID code

No true

high mild

rain N

Yes false

normal hot

overcast M

Yes true

high mild

overcast L

Yes true

normal mild

sunny K

Yes false

normal mild

rain J

Yes false

normal cool

sunny I

No false

high mild

sunny H

Yes true

normal cool

overcast G

No true

normal cool

rain F

Yes false

normal cool

rain E

Yes false

high mild

rain D

Yes false

high hot

overcast C

No true

high hot

sunny B

No false

high hot

sunny A

Play?

Windy Humidity

Temperature Outlook

ID

Trang 27

Tập Weather với ID

Trang 28

Tỷ số độ lợi (gain ratio)

Gain ratio : khắc phục vấn đề dữ liệu có các thuộc tính có

nhiều giá trị phân nhánh

 Gain ratio tính đến số lượng và độ lớn của các nhánh khi chọn

1 thuộc tính phân hoạch

Trang 29

Gain ratio & Intrinsic info.

S nfo

.

) , (

) , ( )

,

(

A S nfo IntrinsicI

A S Gain A

Trang 30

Gain ratio & Intrinsic info.

 ví dụ : intrinsic information cho thuộc tính ID

 tầm quan trọng của thuộc tính giảm khi intrinsic info lớn

 ví dụ gain ratio

bits 807

3 )

14 / 1 log 14

/ 1 ( 14 )

,1 [1,1,

( info      

)Attribute"

info("

intrinsic_

)Attribute"

gain("

)Attribute"

("

246

0bits

3.807

bits

0.940)

ID_code"

("

Trang 31

Gain ratios của Weather

0.021 Gain ratio: 0.029/1.362

0.156 Gain ratio: 0.247/1.577

1.362 Split info: info([4,6,4])

1.577 Split info: info([5,4,5])

0.029 Gain: 0.940-0.911

0.247 Gain: 0.940-0.693

0.911 Info:

0.693 Info:

Temperature Outlook

0.048 Gain: 0.940-0.892

0.152 Gain: 0.940-0.788

0.892 Info:

0.788 Info:

Windy Humidity

Trang 32

1

2

1)

(

Trang 33

Chỉ số gini (CART)

 sau khi phân hoạch T thành 2 tập con T1 & T2 với kích

thước N1 & N2, chỉ số gini

 thuộc tính có ginisplit(T) nhỏ nhất được chọn để phân hoạch

split

( )  1 ( 1)  2 ( 2)

Trang 34

Giải thuật

 giải thuật ID3/C4.5 (Quinlan, 1993)

 sử dụng Gain ratio

 xử lý dữ liệu số, loại, nhiễu

 CART (Breiman et al., 1984)

 sử dụng chỉ số Gini

 xử lý dữ liệu số, loại, nhiễu

Trang 35

Giải thuật C4.5, dữ liệu kiểu số

 phân hoạch nhị phân

Trang 36

80 75

Rainy

Yes False

86

83 Overcast

No True

90

80 Sunny

No False

85 85

Sunny

Play Windy

Humidity Temperature

Outlook

If outlook = sunny and humidity > 83 then play = no

If outlook = rainy and windy = true then play = no

If outlook = overcast then play = yes

If humidity < 85 then play = yes

If none of the above then play = yes

Trang 37

Tập Weather, dữ liệu kiểu số

 phân hoạch trên thuộc tính temperature

 ví dụ temperature  71.5: yes/4, no/2

temperature  71.5: yes/5, no/3

 Info([4,2],[5,3]) = 6/14 info([4,2]) + 8/14 info([5,3])

= 0.939 bitsđiểm phân hoạch : giữa

64 65 68 69 70 71 72 72 75 75 80 81 83 85

Yes No Yes Yes Yes No No Yes Yes Yes No Yes Yes No

Trang 38

Yes No Yes Yes Yes No No Yes Yes Yes No Yes Yes No

điểm giữa của cùng lớp không phải điểm tối ưu

giá trị

lớp

X

Trang 39

Cắt nhánh

 mục tiêu : tránh học vẹt (overfitting), chịu đựng nhiễu,

tăng độ chính xác khi phân loại tập test

 có 2 pha

postpruning – cắt nhánh cây sao cho tăng khả năng

phân loại của cây

prepruning – dừng sớm quá trình phân nhánh

 trong thực tế, postpruning được sử dụng nhiều hơn

prepruning

Trang 40

Postpruning

 xây dựng cây đầy đủ

 cắt nhánh

thay thế cây con

đưa cây con lên trên

 có nhiều chiến lược

 ước lượng lỗi

 significance test

Trang 41

Thay thế cây con

Bottom-up

 thay thế sau khi đã xét

tất cả các cây con

Trang 42

Thay thế cây con

 thay thế cây con nào?

Trang 43

Thay thế cây con

Trang 44

Đưa cây con lên trên

X

Trang 45

 Giới thiệu về cây quyết định

 Giải thuật học của cây quyết định

Kết luận và hướng phát triển

Trang 46

 dễ cài đặt, học nhanh, kết quả dễ hiểu

 được sử dụng nhiều và thành công nhất trong các ứng dụng thực

46

Ngày đăng: 18/04/2014, 10:06

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w