1. Trang chủ
  2. » Tất cả

Presentation1_2

9 7 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 495 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mơ hình bài tốnTiếp cận bài tốn phân lớp bằng Naive Bayes: Ý tưởng chủ đạo là sử dụng xác suất cĩ điều kiện của từ trong văn bản và nhĩm của văn bản huấn luyện để dự đốn xác suất chủ đ

Trang 1

Mơ hình bài tốn

Tiếp cận bài tốn phân lớp bằng Naive Bayes:

Ý tưởng chủ đạo là sử dụng xác suất cĩ điều kiện của từ

trong văn bản và nhĩm của văn bản huấn luyện để dự đốn xác suất chủ đề của một văn bản cần phân loại

Với Nạve Bayes, từng file văn bản là tập hợp các từ( khơng quan trọng thứ tự) Nạve Bayes khơng sự dụng phụ thuộc nhiều từ vào một chủ đề, khơng sử dụng kết hợp các từ

Văn bản cần phân lớp sẽ được gán cho lớp văn bản nào cĩ xác suất lớn nhất

Trang 2

Mô hình bài toán

Tiếp cận bài toán phân lớp bằng Naive Bayes:

Văn bản d’ sẽ được gán vào lớp C j nào có xác xuất Pr(C j , d’) cao nhất

Trang 3

Phân tích bài toán

Cấu trúc giải quyết bài toán:

Tiền xử

Đánh Trọng

Số

Tách Từ

Các Từ

Vector Từ

Trang 4

Phân tích bài toán

Vấn đề tách từ:

Tách từ là vấn đề quan trọng nhất của chương trình, nó quyết định chương trình có thể thược hiện đúng và chính xác việc phân loại hay không là nhờ kết quả của việc tách từ tốt bao nhiêu

Từ trong

câu

Kiểm tra trong từ điển câu

Danh Sách

Từ

Tìm kiếm từ

Từ điển từ

Loại bỏ các từ không có ý nghĩa, từ đồng

nghĩa

Không

Trang 5

Phân tích bài toán

Vấn đề tách từ:

Một số vấn đề gặp phải khi tách từ trong Tiếng Việt

Tiếng Việt được xếp vào loại hình đơn lập, phi hình thái, không biến hình khi hoạt động Ý nghĩa ngữ pháp nằm ở ngoài từ

Ranh giới từ không xác định mặc nhiên bằng khoảng trắng

→Khiến cho việc tách từ trở nên khó khăn.

Bài toán tách từ có 3 phương pháp tiếp cận chính :

Tiếp cận dựa vào từ điển cố định.

Tiếp cận dựa vào thống kê thuần túy.

Tiếp cận dựa trên cả hai phương pháp trên

Trang 6

Phân tích bài toán

Vấn đề tách từ:

Giới thiệu phương pháp so khớp tối đa:

Theo pp này, ta sẽ duyệt 1 câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển, cứ thế tiếp tục cho từ

kế tiếp tới hết câu.

Ưu điểm : Đơn giản, chỉ cần dựa vào từ điển Đạt độ chính xác tương đối.

Khuyết điểm: Độ chính xác và đầy đủcủa pp phụ thuộc hoàn toàn vào từ điển.

Sai trong một số th: Học sinh| học sinh| hoc, Trước| bàn là|

một| ly| nước,…

Trang 7

Phân tích bài toán

Vấn đề tách từ:

Phương pháp giải thuật học cải biên:

Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu Ta huấn luyện cho máy biết cách nhận diện ranh giới từ Tiếng Việt, ta

có thể cho máy “học” dựa trên một ngữ liệu lớn câu tiếng Việt

đã được xác định ranh giới từ đúng.

Ưu điểm : Tự rút ra luật, khắc phụ được khuyết điểm của việc xây dựng luật nhờ chuyên gia, đánh giá được luật đã rút ra Khuyết điểm: Khó có tập ngữ liệu đầy đủ các tiêu chí Cài đặt phức tạp Thời huấn luyện khá lâu.

Trang 8

Gán nhãn- Đánh trọng số

Việc gán nhãn- đánh trọng số là để lượng hóa các từ trong văn bản, nhờ việc lượng hóa này mà chương trình có thể xác định được văn bản thuộc nhóm văn bản nào.

→ Có tính chất quyết định đến kết quả phân loại văn bản

Việc đánh trọng số có ý nghĩa quan trọng trong việc phân loại sau đó Nhưng việc đánh trọng số toàn bộ từ trong văn bản sẽ dẫn đến vector từ phổ biến trong văn bản sẽ có chiều lớn sẽ đòi hỏi máy tính rất mạnh, thời gian chờ đợi kết quả lâu.

→Để tăng tốc độ xử lý, làm đơn giản các phép tính sau này, ta cần giảm chiều vecor và số lượng vector

Trang 9

Gán nhãn- Đánh trọng số

Lựa chọn thuộc tính có tính chất quan trọng nhất trong việc phân loại văn bản: Tần suất xuất hiện của từ.

Ta tiếp chỉ chọn 1 phần từ trong ngữ liệu đủ để phân loại tốt

mà vẫn giữ được tốc độ xử lý đủ nhanh Các từ được chọn được lựa dựa trên tần suất thì cao đến thấp, không quan tâm đến ngữ nghĩa.

Ngày đăng: 18/04/2022, 19:26

HÌNH ẢNH LIÊN QUAN

Mơ hình bài tốn - Presentation1_2
h ình bài tốn (Trang 1)
Mơ hình bài tốn - Presentation1_2
h ình bài tốn (Trang 1)
Mơ hình bài tốn - Presentation1_2
h ình bài tốn (Trang 2)

TÀI LIỆU CÙNG NGƯỜI DÙNG