Mơ hình bài tốnTiếp cận bài tốn phân lớp bằng Naive Bayes: Ý tưởng chủ đạo là sử dụng xác suất cĩ điều kiện của từ trong văn bản và nhĩm của văn bản huấn luyện để dự đốn xác suất chủ đ
Trang 1Mơ hình bài tốn
Tiếp cận bài tốn phân lớp bằng Naive Bayes:
Ý tưởng chủ đạo là sử dụng xác suất cĩ điều kiện của từ
trong văn bản và nhĩm của văn bản huấn luyện để dự đốn xác suất chủ đề của một văn bản cần phân loại
Với Nạve Bayes, từng file văn bản là tập hợp các từ( khơng quan trọng thứ tự) Nạve Bayes khơng sự dụng phụ thuộc nhiều từ vào một chủ đề, khơng sử dụng kết hợp các từ
Văn bản cần phân lớp sẽ được gán cho lớp văn bản nào cĩ xác suất lớn nhất
Trang 2Mô hình bài toán
Tiếp cận bài toán phân lớp bằng Naive Bayes:
Văn bản d’ sẽ được gán vào lớp C j nào có xác xuất Pr(C j , d’) cao nhất
Trang 3Phân tích bài toán
Cấu trúc giải quyết bài toán:
Tiền xử
Đánh Trọng
Số
Tách Từ
Các Từ
Vector Từ
Trang 4Phân tích bài toán
Vấn đề tách từ:
Tách từ là vấn đề quan trọng nhất của chương trình, nó quyết định chương trình có thể thược hiện đúng và chính xác việc phân loại hay không là nhờ kết quả của việc tách từ tốt bao nhiêu
Từ trong
câu
Kiểm tra trong từ điển câu
Danh Sách
Từ
Tìm kiếm từ
Từ điển từ
Loại bỏ các từ không có ý nghĩa, từ đồng
nghĩa
có
Không
Trang 5Phân tích bài toán
Vấn đề tách từ:
Một số vấn đề gặp phải khi tách từ trong Tiếng Việt
Tiếng Việt được xếp vào loại hình đơn lập, phi hình thái, không biến hình khi hoạt động Ý nghĩa ngữ pháp nằm ở ngoài từ
Ranh giới từ không xác định mặc nhiên bằng khoảng trắng
→Khiến cho việc tách từ trở nên khó khăn.
Bài toán tách từ có 3 phương pháp tiếp cận chính :
Tiếp cận dựa vào từ điển cố định.
Tiếp cận dựa vào thống kê thuần túy.
Tiếp cận dựa trên cả hai phương pháp trên
Trang 6Phân tích bài toán
Vấn đề tách từ:
Giới thiệu phương pháp so khớp tối đa:
Theo pp này, ta sẽ duyệt 1 câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển, cứ thế tiếp tục cho từ
kế tiếp tới hết câu.
Ưu điểm : Đơn giản, chỉ cần dựa vào từ điển Đạt độ chính xác tương đối.
Khuyết điểm: Độ chính xác và đầy đủcủa pp phụ thuộc hoàn toàn vào từ điển.
Sai trong một số th: Học sinh| học sinh| hoc, Trước| bàn là|
một| ly| nước,…
Trang 7Phân tích bài toán
Vấn đề tách từ:
Phương pháp giải thuật học cải biên:
Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu Ta huấn luyện cho máy biết cách nhận diện ranh giới từ Tiếng Việt, ta
có thể cho máy “học” dựa trên một ngữ liệu lớn câu tiếng Việt
đã được xác định ranh giới từ đúng.
Ưu điểm : Tự rút ra luật, khắc phụ được khuyết điểm của việc xây dựng luật nhờ chuyên gia, đánh giá được luật đã rút ra Khuyết điểm: Khó có tập ngữ liệu đầy đủ các tiêu chí Cài đặt phức tạp Thời huấn luyện khá lâu.
Trang 8Gán nhãn- Đánh trọng số
Việc gán nhãn- đánh trọng số là để lượng hóa các từ trong văn bản, nhờ việc lượng hóa này mà chương trình có thể xác định được văn bản thuộc nhóm văn bản nào.
→ Có tính chất quyết định đến kết quả phân loại văn bản
Việc đánh trọng số có ý nghĩa quan trọng trong việc phân loại sau đó Nhưng việc đánh trọng số toàn bộ từ trong văn bản sẽ dẫn đến vector từ phổ biến trong văn bản sẽ có chiều lớn sẽ đòi hỏi máy tính rất mạnh, thời gian chờ đợi kết quả lâu.
→Để tăng tốc độ xử lý, làm đơn giản các phép tính sau này, ta cần giảm chiều vecor và số lượng vector
Trang 9Gán nhãn- Đánh trọng số
Lựa chọn thuộc tính có tính chất quan trọng nhất trong việc phân loại văn bản: Tần suất xuất hiện của từ.
Ta tiếp chỉ chọn 1 phần từ trong ngữ liệu đủ để phân loại tốt
mà vẫn giữ được tốc độ xử lý đủ nhanh Các từ được chọn được lựa dựa trên tần suất thì cao đến thấp, không quan tâm đến ngữ nghĩa.