1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 16 - TS.Nguyễn Bá Ngọc

20 20 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 641,89 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân lớp và ứng dụng trong tìm kiếm thuộc bài 16 nằm trong bộ bài giảng Tìm kiếm và trình diễn thông tin do TS.Nguyễn Bá Ngọc biên soạn sẽ gửi tới các bạn các giải thuật Naïve Bayes; Multinomial Naïve Bayes: Huấn luyện; Multinomial Naïve Bayes: Phân lớp; Bernoulli Naïve Bayes: Huấn luyện; Bernoulli Naïve Bayes: Phân lớp;...

Trang 1

(IT4853) Tìm kiếm và trình diễn thông tin

Phân lớp và ứng dụng trong tìm kiếm

Trang 2

Giảng viên

 TS Nguyễn Bá Ngọc

 Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603

 Email: ngocnb@soict.hust.edu.vn

Website: http://is.hust.edu.vn/~ngocnb

Trang 3

Nội dung chính

 Các giải thuật Nạve Bayes;

Trang 4

Multinomial Nạve Bayes: Huấn luyện

Trang 5

Multinomial Nạve Bayes: Phân lớp

Trang 6

Bernoulli Nạve Bayes: Huấn luyện

Trang 7

Bernoulli Nạve Bayes: Phân lớp

Trang 8

Nội dung chính

 Trích chọn đặc trưng

Trang 9

Trích chọn đặc trưng

 Trong phân lớp, văn bản thường được biểu diễn trong không gian đa chiều;

 chiều ~ trục;

 từ ~ đặc trưng.

 Các từ hiếm có thể gây lỗi phân lớp;

 Từ gây lỗi phân lợp được gọi là đặc trưng nhiễu.

 Loại các đặc trưng nhiễu làm tăng hiệu quả và hiệu năng phân lớp;

 Quá trình loại bỏ các đặc trưng nhiễu gọi là trích chọn đặc trưng;

Trang 10

Đặc trưng nhiễu

 Giả sử một từ hiếm t không chứa thông tin liên quan đến lớp c nhưng chỉ xuất hiện trong các văn bản của lớp c

 Vì t là từ hiếm nên bộ phân lớp sau huấn luyện có thể coi t như một tín hiệu mạnh thuộc lớp c

 Hiện tượng này được gọi là overfitting

 Trích chọn đặc trưng làm giảm overfitting và cải thiện tính chính xác của bộ phân lớp

Trang 11

Giải thuật trích chọn đặc trưng

Trang 12

Các phương pháp cơ bản

 Phương pháp trích chọn đặc trưng được xác định chủ yếu bởi cách đo độ hữu ích của đặc trưng

 Độ hữu ích của đặc trưng:

 Tần suất – lựa chọn những từ xuất hiện thường xuyên nhất.

 Mutual information – lựa chọn từ với mutual information cao nhất;

 Còn được gọi là Information Gain

Chi-square

Trang 13

Các phương pháp cơ bản

 Phương pháp trích chọn đặc trưng được xác định chủ yếu bởi cách đo độ hữu ích của đặc trưng

 Độ hữu ích của đặc trưng:

 Tần suất – lựa chọn những từ xuất hiện thường xuyên nhất.

 Hàm lượng thông tin – lựa chọn từ với Hàm lượng thông tin cao nhất;

 Chi-square

Trang 14

Hàm lượng thông tin

 Mutual information hoặc Information Gain

Trang 15

Ví dụ tính MI, poultry/EXPORT

Trang 16

Kết quả trích chọn đặc trưng trên

Reuters

Trang 17

(multinomial = multinomial Naive Bayes, binomial

= Bernoulli Naive Bayes)

Trang 18

Nạve Bayes

 Trong trường hợp tổng quát, trích chọn đặc trưng

là cần thiết để đạt kết quả cao

Cần trích chọn đặc trưng để đạt hiệu quả tối đa!

Trang 19

Bài tập

 Tính ma trận nhầm lẫn tương tự poultry/EXPORT cho cặp

“Kyoto/JAPAN”.

 Hãy thiết lập ma trận nhầm lẫn mà MI = 0

Ngày đăng: 08/05/2021, 13:17

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w