1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài 05 Slide Cây quyết định

19 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 1,16 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài 05 Slide Cây quyết định. Trong lý thuyết quyết định, một cây quyết định là một đồ thị của các quyết định và các hậu quả có thể của nó. Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây

Trang 1

Cây Quyết Định (Decision Tree)

caotruongtran@gmail.com

1

Trang 2

caotruongtran@gmail.com 2

Trang 3

caotruongtran@gmail.com 3

Trang 4

caotruongtran@gmail.com 4

Trang 5

caotruongtran@gmail.com 5

Trang 6

caotruongtran@gmail.com 6

Trang 7

caotruongtran@gmail.com 7

Trang 8

Học các cây quyết định

8

Bài toán: Học xem khi nào thì nên ngồi bàn đợi tại một restaurant:

1 Alternate: Có restaurant nào cạnh đây không?

2 Bar: Liệu có khu vực quầy bar có thể ngồi không?

3 Fri/Sat: hôm nay là thứ 6 hay thứ 7?

4 Hungry: có đang đói không?

5 Patrons: Số người trong restaurant (None, Some, Full)

6 Price: khoảng giá ($, $$, $$$)

7 Raining: ngoài trời có mưa không?

8 Reservation: đã đặt trước chưa?

9 Type: loại restaurant (French, Italian, Thai, Burger)

10 WaitEstimate: thời gian chờ đợi (0-10, 10-30, 30-60, >60)

Trang 9

Biểu diễn thuộc tính giá trị

9

Trang 10

Cây quyết định

10

 Biểu diễn giả thiết cần học.

 Ví dụ:

Trang 11

Thuật toán học cây quyết định

11

 Mục đích: Tìm cây nhỏ nhất quán với tập mẫu huấn luyện

 Ý tưởng: Tìm kiếm heuristic chọn thuộc tính quan trọng nhất để phân tách (đệ quy)

Trang 12

Chọn thuộc tính

12

 Ý tưởng: chọn thuộc tính (giá trị) sao cho sao cho nó giúp phân tách tập mẫu thanh hai tập thuần khiết (chỉ có positive hay chỉ có negative)

Patrons? là lựa chọn tốt hơn

Trang 13

Sử dụng lý thuyết thông tin

13

I(P(v1), … , P(vn)) = Σi=1-n -P(vi) log2 P(vi)

n p

n n

p

n n

p

p n

p

p n

p

n n

p

p I

+ +

− + +

= +

(

Trang 14

Lợi thông tin (Information gain)

14

chọn thuộc tính A chia tập huấn luyện E thành các tập con E1, … , Ev tính theo giá trị của A, và giả sự A có v giá trị khác

nhau

 Lợi thông tin (IG) là độ giảm trong entropy trong việc test thuộc tính:

 Chọn thuộc tính có IG lớn nhất

+

= v

i

i i

i i

i

n p

n n

p

p I

n p

n p A

remainder

1

) ,

( )

(

) ( )

, (

)

n p

n n

p

p I

A

+ +

=

Trang 15

Lợi thông tin (Information gain)

15

Trong tập mẫu của ví dụ, p = n = 6, I(6/12, 6/12) = 1 bit

Xét thuộc tính Patrons và Type (và các thuộc tính khác):

Patrons có giá trị IG cao nhất nên được DTL chọn làm gốc của cây quyết định. )] 0 bits

4

2 , 4

2 ( 12

4 ) 4

2 , 4

2 ( 12

4 ) 2

1 , 2

1 ( 12

2 ) 2

1 , 2

1 ( 12

2 [ 1 ) (

bits 541

)]

6

4 , 6

2 ( 12

6 ) 0 , 1

( 12

4 ) 1 , 0

( 12

2 [ 1 ) (

= +

+ +

=

= +

+

=

I I

I I

Type IG

I I

I Patrons

IG

Trang 16

Lợi thông tin (Information gain)

16

Trang 17

Xây dựng cây quyết định

17

Trang 18

Xây dựng cây quyết định

18

Ngày đăng: 18/10/2022, 09:42

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w