1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài phân loại văn bản lọc thư rác

14 482 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 547,52 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tập dữ liệu Data set Tập thử nghiệm Test set Tập học Training set Tập tối ưu Validation set Huấn luyện hệ thống Thử nghiệm hệ thống đã học Tối ưu hóa các tham số của hệ thống... • PD

Trang 1

Xử lý ngôn ngữ tư nhiên

Đề tài: Phân loại văn bản: Lọc thư rác GVHD: PGS.TS Lê Thanh Hương

Nhóm sinh viên thực hiện:

1 Trần Việt Đức – 20086084

2 Dương Nữ Nguyệt Linh – 20081516

3 Trương Công Trọng Nghĩa– 20081877

4 Nguyễn Thị Minh Thùy – 20082598

Trang 2

I Giới thiệu

• 1.1 Vấn đề Spam Email.

• 1.2 Học máy.

Tập dữ liệu

(Data set)

Tập thử nghiệm (Test set)

Tập học (Training set)

Tập tối ưu (Validation set)

Huấn luyện

hệ thống

Thử nghiệm

hệ thống đã học

Tối ưu hóa

các tham số của hệ thống

Trang 3

I Giới thiệu

• 1.3 Định lý Bayes.

• P(h): Xác suất trước rằng giả thiết (phân lớp)

h là đúng.

• P(D): Xác suất trước rằng tập dữ liệu D được quan sát(thu được).

• P(D|h): Xác suất của việc quan sát được(thu được) tập dữ liệu D, với điều kiện giả thiết h là đúng.

• P(h|D): Xác suất của giả thiết h là đúng, với điều kiện tập dữ liệu D được quan sát.

• 1.4 Khái niệm “Token”:

( | ) ( ) ( | )

( )

P D h P h

P h D

P D

Trang 4

II Phân loại Nạve Bayes

• 4.1 Tính xác suất spam của mỗi token phân tách.

o Theo Paulgraham.

o Số token tỉ lệ với số email.

o Vậy ta cĩ:

S N

s N

p X w C spam

s n

N N

S N

s T

p X w C spam

s n

T T

Trang 5

II Phân loại Nạve Bayes

• Khi số lần 1 token xuất hiện lớn hơn số token phân biệt?

• Khi token chỉ xuất hiện ở một kho?

min(1, )

min(1, ) min(1, )

S

s T

p X w C spam

min(1, )

min(1, ) min(1, )

S

s T

p X w C spam m M min N

Trang 6

II Phân loại Nạve Bayes

• Cuối cùng áp dụng cơng thức nạve bayes.

• Vậy xác suất một từ spam tính theo cơng thức.

1

n

i i i

n

i i

k spam ham i

P C spam P X x C c

P C spam X x

P C k P X x C k

1

n

i i i

n

i i

k spam non spam i

P C c P X x C c

P C c X x

P C k P X x C c

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Trang 7

III Các chỉ sô đánh giá hiệu quả

phân loại mail.

• 3.1 Spam Recall và Spam Precision.

• 3.2 Tỉ lệ lỗi Error và Tỉ lệ chính xác Accuary.

n

n

N S S N

N S

Err

N N S S

N S

Acc

Trang 8

III Các chỉ sô đánh giá hiệu quả

phân loại mail.

• 3.3 Tỉ lệ lỗi gia trọng Weighted Error và tỉ lệ chính xác gia trọng Weighted Accurary.

• Chọn 𝜆 ngưỡng phân loại email:

WAcc

WErr

Trang 9

III Các chỉ sô đánh giá hiệu quả

phân loại mail.

• 3.4.1 Tỉ số chi phí tổng hợp.

• Tỉ lệ chính xác gia trọng

trường hợp “ranh giới”.

• Tỉ lệ lỗi gia trọng trường

hợp “ranh giới”.

• Tỉ số chí phí tổng hợp.

N WAcc

N S

N WErr

N N

b

S

N S S N

N WErr

TCR

WErrnn

Trang 10

IV Thử nghiệm

• 5.1 Tập dữ liệu.

o Nhóm em dùng kho dữ liệu email chữ.

o Tập huấn luyện:

• 922 email non-spam và 594 email spam.

o Tỉ lệ: ≈ 0.64425.

o Tập kiểm thử:

• 73 smail non-spam và 47 email spam.

o Tỉ lệ: ≈ 0.64384.

• 5.2 Kết quả thực nghiệm.

o Nếu ta chọn ngưỡng phân loại email 0.5 tức là = 1 ngưỡng phân loại 𝜆 = 1 ngưỡng phân loại

o Quá trình thử nghiệm

• Spam: cho ra 45 email cho ra là spam còn 2 email là non-spam.

• Non-spam: cho ra 71 email non-spam và 1 email spam.

•  

Trang 11

IV Thử nghiệm

o Tính các giá trị recall và precision

o Re = = 95.7%

o Pr = 97.8%

o Tỉ lệ lỗi và tỉ lệ chính xác

• Acc = = 97.5%

• Err = = 2.5%

o Tỉ lệ lỗi gia trọng và tỉ lệ chính xác gia trọng

• Wacc = 97.5%

• WErr = 2.5%

•  

Trang 12

IV Thử nghiệm

Trang 13

V Nhận xét

• Ưu điểm.

• Nhược điểm.

• Question/Answer.

Trang 14

Cám ơn vì đã lắng nghe

Ngày đăng: 23/10/2014, 23:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w