1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giới thiệu về mô hình rừng ngẫu nhiên

27 1,4K 10

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,85 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mô hình cây quyết định?Là mô hình phỏng đoán sử dụng một loạt quy tắc nhị phân để tính toán một giá trị nào đóCó hai kiểu cây quyết định: cây phân loại và cây quy hốiPhép quy hồi tính toán mối quan hệ giữa biến số dự đoán và biến số đáp lại tương ứng.Cấu trúc tương tự như cây phân loại.

Trang 1

Giới thiệu về mô hình rừng

ngẫu nhiên

GVHD: TS Đặng Việt Hùng

1.Nguyễn Văn Long2.Hoàng Xuân Khánh3.Trần Trung Lý

4.Nguyễn Đình Ngọc Khoa5.Lê Trung Dũng

Thực hiện: Nhóm 5 – K8MCS

Trang 2

Mô hình cây quyết định?

• Là mô hình phỏng đoán sử dụng một loạt quy tắc nhị phân để tính toán một giá trị nào đó

• Có hai kiểu cây quyết định: cây phân loại và cây quy hối

Từ quan sát

về 1 sự vật, hiện tượng

Các kết luận

Trang 3

Ví dụ cây phân loại

Trang 5

Dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định (play/no)

Trang 6

Cây quyết định cho tập dữ liệu weather, dựa trên các

thuộc tính (Outlook, Temp, Humidity, Windy

Trang 7

Chọn thuộc tính phân hoạch

• Ở mỗi nút, các thuộc tính được đánh giá dựa trên phân tách dữ liệu học tốt nhất có thể

• việc đánh giá dựa trên

o độ lợi thông tin, information gain (ID3/C4.5)

o chỉ số gini, gini index (CART)

=> Chọn thuộc tính có độ lợi thông tin lớn nhất

Trang 8

Độ lợi thông tin

• Độ lợi thông tin : thông tin được đo lường bằng bits

o cho 1 phân phối xác suất, thông tin cần thiết để dự đoán 1 sự kiện là entropy

• Công thức tính entropy:

Trang 9

Chọn thuộc tính phân hoạch

Trang 10

Info([3,2] = entropy(3/5,2/5) = -3/5log(3/5) – 2/5log(2/5) = 0.971 bits

Thông tin của thuộc tính outlook :

Info([3,2],[4,0],[3,2]) = (5/14)*0.971 + 4/14*0 + 5/14*0.971 = 0.693 bits

Trang 11

Độ lợi thông tin

• Độ lợi thông tinh :

(trước khi phân hoạch) – ( sau khi phân hoạch)

= info([9,5]) – info([2,3],[4,0],[3,2]) = 0.940 – 0.693

= 0.247 bits

Trang 12

Độ lợi thông tin

• Độ lợi thông tin độ của các thuộc tính

(trước khi phân hoạch) – (sau khi phân hoạch)

Trang 13

Tiếp tục phân hoạch dữ liệu

Trang 14

Kết quả

• Phân hoạch dừng khi dữ liệu không thể phân hoạch, nhãn được gán cho lớp lớn nhất chưa trong nút lá

Trang 15

Những ưu điểm của mô hình

cây quyết định

• Dễ dàng giải nghĩa các quy tắc quyết định

• Dễ dàng hợp nhất với một dãy các số hoặc các lớp dữ liệu tuyệt đối Không cần chọn dữ liệu trước (unimodal training data)

• Thô sơ nếu tính đến những những phần nằm ngoài dữ liệu chọn trước (training data)

• Phân loại là quy tắc nhanh duy nhất được sử dụng

Trang 16

Những nhược điểm của mô

hình cây quyết định

• Mô hình cây dường như quá phù hợp (overfit) đối với những dữ liệu đã được chọn (training data) vì vậy cho kết quả không tốt khi áp dụng cho tất cả các dữ liệu

• Chia nhỏ theo đường vuông góc các đối tượng trên trục không gian không phải luôn mang lại hiệu quả

• Không thể dự đoán quá giới hạn nhỏ nhất và lớn nhất của biến số tương ứng trong dữ liệu đã được chọn

(training data)

Trang 17

Thế nào là rừng ngẫu nhiên ?

• Là một lớp phân loại toàn

Trang 18

Rừng ngẫu nhiên hoạt động

như thế nào?

• Một tập hợp con khác nhau các dữ liệu được chọn ra

(63%), thay thế, để chọn mẫu cho từng cây

• Những dữ liệu được chọn mẫu còn lại (37%) được sử dụng để dự đoán lỗi và sự quan trọng của các biến sô

• Nhóm phân loại được quyết định dựa trên số lượng bình chọn từ tất cả các cây và phép quy hồi trung bình của các kết quả được sử dụng

Trang 19

Tập hợp con của các biến số

• Một tập hợp con của các

biến số được lựa chọn

ngẫu nhiên để chia từng

• Tập biến nhỏ hơn thì xây

dựng cây nhanh hơn

Trang 20

Những biến số chung của

rừng ngẫu nhiên

• Dữ liệu đầu vào

• Số lượng cây

• Số lượng mỗi biến số sử

dụng tại mỗi chổ chia

Trang 21

Thuật toán Breiman

• Thuật toán xây dựng cho mỗi cây

o Số bản ghi của dữ liệu học là N, số biến là M.

o Gọi m là số dữ liệu biến đầu vào dùng để phân hoạch dữ liệu tại nút của cây, m

Trang 22

Thông tin rừng ngẫu nhiên

• Độ chính xác của việc

phân loại

• Sự quan trọng của biến số

• Các đối tượng phía ngoài

• Dự đoán các dữ liệu bị

mất

• Tỷ lệ lỗi đối với những đối

tượng rừng phân loại

Trang 23

Những ưu điểm của rừng

ngẫu nhiên

• Không cần đối tượng với những cây đã được cắt tỉa

• Độ chính xác và sự quan trọng của các biến số tự động được tạo ra

• Overfitting không phải là một vấn đề

• Không quá nhạy cảm đối với những đối tượng ngoài dữ liệu được chọn

• Dễ dàng thiết lập các tham số

Trang 24

Những hạn chế của rừng

ngẫu nhiên

• Phép quy hồi không thể dự đoán quá ngưỡng những dữ liệu được chọn

• Trong phép quy hồi, những giá trị vượt quá thường

không được dự đoán chính xác – hoặc là đánh giá quá thấp hoặc là đánh giá quá cao

Trang 25

Những ứng dụng Viễn thám chung của rừng ngẫu nhiên

• Phân loại lớp phủ đất

• Phân loại mây/bóng trên

màn hình

• Lập bàn đồ sinh khối

Ngày đăng: 22/12/2014, 09:16

HÌNH ẢNH LIÊN QUAN

Hình cây quyết định - Giới thiệu về mô hình rừng ngẫu nhiên
Hình c ây quyết định (Trang 17)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w