1. Trang chủ
  2. » Công Nghệ Thông Tin

Các tiêu chí đánh giá hiệu năng của các kí thuật phân loại trong khai phá dữ liệu

22 54 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 1,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đánh giá hiệu năng của các kỹ thuật phân loại, các phương pháp đánh giá ,các tiêu chí đánh giá các kĩ thuật phân lớp knn, decision tree, so sánh độ chính xác, ước lượng độ chính xác,đánh giá độ chính xác của mô hình

Trang 1

KHAI PHÁ DỮ LIỆU

Tài liệu dành cho sinh viên ngành CNTT Học viện Nông nghiệp Việt Nam

Trang 2

NỘI DUNG

Chương 4: Học máy cho khai phá dữ liệu

Tham khảo: Chapter 8.5 [1]

4.3 Đánh giá hiệu năng của các kỹ thuật phân loại

- Các phương pháp đánh giá

- Các tiêu chí đánh giá

Trang 3

Đánh giá hiệu năng của các kỹ thuật phân loại

Trang 4

Data D

Đánh giá hiệu năng của các kỹ thuật phân loại

Trang 5

 Làm thế nào để thu được một đánh giá đáng tin cậy về hiệu năng của hệ

thống?

– Tập huấn luyện càng lớn, thì hiệu năng của hệ thống học càng tốt

– Tập kiểm thử càng lớn thì việc đánh giá càng chính xác

– Vấn đề: Rất khó (ít khi) có thể có được các tập dữ liệu (rất) lớn

 Hiệu năng của hệ thống không chỉ phụ thuộc vào giải thuật học máy được sử dụng, mà còn phụ thuộc vào:

– Phân bố lớp (Class distribution)

– Chi phí của việc phân lớp sai (Cost of misclassification)

– Kích thước của tập huấn luyện (Size of the training set)

– Kích thước của tập kiểm thử (Size of the test set)

Trang 7

Hold-out (splitting)

Trang 8

Cross-validation

Trang 9

Leave-one-out cross-validation

Trang 10

Bootstrap sampling (1)

Trang 11

Bootstrap sampling (2)

Trang 12

Các tiêu chí đánh giá

• Tính chính xác (Accuracy)

→ Mức độ dự đoán (phân lớp) chính xác của hệ thống (đã được huấn luyện) đối với các ví

dụ kiểm chứng (test instances)

• Tính hiệu quả (Efficiency)

→ Chi phí về thời gian và tài nguyên (bộ nhớ) cần thiết cho việc huấn luyện và kiểm thử hệ thống

• Khả năng xử lý nhiễu (Robustness)

→ Khả năng xử lý (chịu được) của hệ thống đối với các ví dụ nhiễu (lỗi) hoặc thiếu giá trị

Trang 13

Các tiêu chí đánh giá

• Khả năng mở rộng (Scalability)

→ Hiệu năng của hệ thống (vd: tốc độ học/ phân loại) thay đổi như thế nào đối với kích

thước của tập dữ liệu

• Khả năng diễn giải (Interpretability)

→ Mức độ dễ hiểu (đối với người sử dụng) của các kết quả và hoạt động của hệ thống

• Mức độ phức tạp (Complexity)

→ Mức độ phức tạp của mô hình hệ thống (hàm mục tiêu) học được

Trang 14

Độ chính xác (Accuracy)

Trang 15

• Độ chính xác (Accuracy) có phải là một độ đo tốt cho hiệu năng của giải thuật học máy?

Trang 17

Precision and Recall

Trang 18

Precision and Recall

Trang 19

F1 (F-score)

Trang 21

Ứng dụng

• Excercise: 8.1, 8.7, 8.12, 8.16

Trang 22

QUESTION?

Ngày đăng: 10/08/2021, 17:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w