Mô hình cây quyết định?Là mô hình phỏng đoán sử dụng một loạt quy tắc nhị phân để tính toán một giá trị nào đóCó hai kiểu cây quyết định: cây phân loại và cây quy hốiPhép quy hồi tính toán mối quan hệ giữa biến số dự đoán và biến số đáp lại tương ứng.Cấu trúc tương tự như cây phân loại.
Trang 1Giới thiệu về mô hình rừng
ngẫu nhiên
GVHD: TS Đặng Việt Hùng
1.Nguyễn Văn Long2.Hoàng Xuân Khánh3.Trần Trung Lý
4.Nguyễn Đình Ngọc Khoa5.Lê Trung Dũng
Thực hiện: Nhóm 5 – K8MCS
Trang 2Mô hình cây quyết định?
• Là mô hình phỏng đoán sử dụng một loạt quy tắc nhị phân để tính toán một giá trị nào đó
• Có hai kiểu cây quyết định: cây phân loại và cây quy hối
Từ quan sát
về 1 sự vật, hiện tượng
Các kết luận
Trang 3Ví dụ cây phân loại
Trang 5Dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định (play/no)
Trang 6Cây quyết định cho tập dữ liệu weather, dựa trên các
thuộc tính (Outlook, Temp, Humidity, Windy
Trang 7Chọn thuộc tính phân hoạch
• Ở mỗi nút, các thuộc tính được đánh giá dựa trên phân tách dữ liệu học tốt nhất có thể
• việc đánh giá dựa trên
o độ lợi thông tin, information gain (ID3/C4.5)
o chỉ số gini, gini index (CART)
=> Chọn thuộc tính có độ lợi thông tin lớn nhất
Trang 8Độ lợi thông tin
• Độ lợi thông tin : thông tin được đo lường bằng bits
o cho 1 phân phối xác suất, thông tin cần thiết để dự đoán 1 sự kiện là entropy
• Công thức tính entropy:
Trang 9Chọn thuộc tính phân hoạch
Trang 10Info([3,2] = entropy(3/5,2/5) = -3/5log(3/5) – 2/5log(2/5) = 0.971 bits
Thông tin của thuộc tính outlook :
Info([3,2],[4,0],[3,2]) = (5/14)*0.971 + 4/14*0 + 5/14*0.971 = 0.693 bits
Trang 11Độ lợi thông tin
• Độ lợi thông tinh :
(trước khi phân hoạch) – ( sau khi phân hoạch)
= info([9,5]) – info([2,3],[4,0],[3,2]) = 0.940 – 0.693
= 0.247 bits
Trang 12Độ lợi thông tin
• Độ lợi thông tin độ của các thuộc tính
(trước khi phân hoạch) – (sau khi phân hoạch)
Trang 13Tiếp tục phân hoạch dữ liệu
Trang 14Kết quả
• Phân hoạch dừng khi dữ liệu không thể phân hoạch, nhãn được gán cho lớp lớn nhất chưa trong nút lá
Trang 15Những ưu điểm của mô hình
cây quyết định
• Dễ dàng giải nghĩa các quy tắc quyết định
• Dễ dàng hợp nhất với một dãy các số hoặc các lớp dữ liệu tuyệt đối Không cần chọn dữ liệu trước (unimodal training data)
• Thô sơ nếu tính đến những những phần nằm ngoài dữ liệu chọn trước (training data)
• Phân loại là quy tắc nhanh duy nhất được sử dụng
Trang 16Những nhược điểm của mô
hình cây quyết định
• Mô hình cây dường như quá phù hợp (overfit) đối với những dữ liệu đã được chọn (training data) vì vậy cho kết quả không tốt khi áp dụng cho tất cả các dữ liệu
• Chia nhỏ theo đường vuông góc các đối tượng trên trục không gian không phải luôn mang lại hiệu quả
• Không thể dự đoán quá giới hạn nhỏ nhất và lớn nhất của biến số tương ứng trong dữ liệu đã được chọn
(training data)
Trang 17Thế nào là rừng ngẫu nhiên ?
• Là một lớp phân loại toàn
Trang 18Rừng ngẫu nhiên hoạt động
như thế nào?
• Một tập hợp con khác nhau các dữ liệu được chọn ra
(63%), thay thế, để chọn mẫu cho từng cây
• Những dữ liệu được chọn mẫu còn lại (37%) được sử dụng để dự đoán lỗi và sự quan trọng của các biến sô
• Nhóm phân loại được quyết định dựa trên số lượng bình chọn từ tất cả các cây và phép quy hồi trung bình của các kết quả được sử dụng
Trang 19Tập hợp con của các biến số
• Một tập hợp con của các
biến số được lựa chọn
ngẫu nhiên để chia từng
• Tập biến nhỏ hơn thì xây
dựng cây nhanh hơn
Trang 20Những biến số chung của
rừng ngẫu nhiên
• Dữ liệu đầu vào
• Số lượng cây
• Số lượng mỗi biến số sử
dụng tại mỗi chổ chia
Trang 21Thuật toán Breiman
• Thuật toán xây dựng cho mỗi cây
o Số bản ghi của dữ liệu học là N, số biến là M.
o Gọi m là số dữ liệu biến đầu vào dùng để phân hoạch dữ liệu tại nút của cây, m
Trang 22Thông tin rừng ngẫu nhiên
• Độ chính xác của việc
phân loại
• Sự quan trọng của biến số
• Các đối tượng phía ngoài
• Dự đoán các dữ liệu bị
mất
• Tỷ lệ lỗi đối với những đối
tượng rừng phân loại
Trang 23Những ưu điểm của rừng
ngẫu nhiên
• Không cần đối tượng với những cây đã được cắt tỉa
• Độ chính xác và sự quan trọng của các biến số tự động được tạo ra
• Overfitting không phải là một vấn đề
• Không quá nhạy cảm đối với những đối tượng ngoài dữ liệu được chọn
• Dễ dàng thiết lập các tham số
Trang 24Những hạn chế của rừng
ngẫu nhiên
• Phép quy hồi không thể dự đoán quá ngưỡng những dữ liệu được chọn
• Trong phép quy hồi, những giá trị vượt quá thường
không được dự đoán chính xác – hoặc là đánh giá quá thấp hoặc là đánh giá quá cao
Trang 25Những ứng dụng Viễn thám chung của rừng ngẫu nhiên
• Phân loại lớp phủ đất
• Phân loại mây/bóng trên
màn hình
• Lập bàn đồ sinh khối