Phân lớp và ứng dụng trong tìm kiếm thuộc bài 16 nằm trong bộ bài giảng Tìm kiếm và trình diễn thông tin do TS.Nguyễn Bá Ngọc biên soạn sẽ gửi tới các bạn các giải thuật Naïve Bayes; Multinomial Naïve Bayes: Huấn luyện; Multinomial Naïve Bayes: Phân lớp; Bernoulli Naïve Bayes: Huấn luyện; Bernoulli Naïve Bayes: Phân lớp;...
Trang 1(IT4853) Tìm kiếm và trình diễn thông tin
Phân lớp và ứng dụng trong tìm kiếm
Trang 2Giảng viên
TS Nguyễn Bá Ngọc
Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603
Email: ngocnb@soict.hust.edu.vn
Website: http://is.hust.edu.vn/~ngocnb
Trang 3Nội dung chính
Các giải thuật Nạve Bayes;
Trang 4Multinomial Nạve Bayes: Huấn luyện
Trang 5Multinomial Nạve Bayes: Phân lớp
Trang 6Bernoulli Nạve Bayes: Huấn luyện
Trang 7Bernoulli Nạve Bayes: Phân lớp
Trang 8Nội dung chính
Trích chọn đặc trưng
Trang 9Trích chọn đặc trưng
Trong phân lớp, văn bản thường được biểu diễn trong không gian đa chiều;
chiều ~ trục;
từ ~ đặc trưng.
Các từ hiếm có thể gây lỗi phân lớp;
Từ gây lỗi phân lợp được gọi là đặc trưng nhiễu.
Loại các đặc trưng nhiễu làm tăng hiệu quả và hiệu năng phân lớp;
Quá trình loại bỏ các đặc trưng nhiễu gọi là trích chọn đặc trưng;
Trang 10Đặc trưng nhiễu
Giả sử một từ hiếm t không chứa thông tin liên quan đến lớp c nhưng chỉ xuất hiện trong các văn bản của lớp c
Vì t là từ hiếm nên bộ phân lớp sau huấn luyện có thể coi t như một tín hiệu mạnh thuộc lớp c
Hiện tượng này được gọi là overfitting
Trích chọn đặc trưng làm giảm overfitting và cải thiện tính chính xác của bộ phân lớp
Trang 11Giải thuật trích chọn đặc trưng
Trang 12Các phương pháp cơ bản
Phương pháp trích chọn đặc trưng được xác định chủ yếu bởi cách đo độ hữu ích của đặc trưng
Độ hữu ích của đặc trưng:
Tần suất – lựa chọn những từ xuất hiện thường xuyên nhất.
Mutual information – lựa chọn từ với mutual information cao nhất;
Còn được gọi là Information Gain
Chi-square
Trang 13Các phương pháp cơ bản
Phương pháp trích chọn đặc trưng được xác định chủ yếu bởi cách đo độ hữu ích của đặc trưng
Độ hữu ích của đặc trưng:
Tần suất – lựa chọn những từ xuất hiện thường xuyên nhất.
Hàm lượng thông tin – lựa chọn từ với Hàm lượng thông tin cao nhất;
Chi-square
Trang 14Hàm lượng thông tin
Mutual information hoặc Information Gain
Trang 15Ví dụ tính MI, poultry/EXPORT
Trang 16Kết quả trích chọn đặc trưng trên
Reuters
Trang 17(multinomial = multinomial Naive Bayes, binomial
= Bernoulli Naive Bayes)
Trang 18Nạve Bayes
Trong trường hợp tổng quát, trích chọn đặc trưng
là cần thiết để đạt kết quả cao
Cần trích chọn đặc trưng để đạt hiệu quả tối đa!
Trang 19Bài tập
Tính ma trận nhầm lẫn tương tự poultry/EXPORT cho cặp
“Kyoto/JAPAN”.
Hãy thiết lập ma trận nhầm lẫn mà MI = 0