Tập dữ liệu Data set Tập thử nghiệm Test set Tập học Training set Tập tối ưu Validation set Huấn luyện hệ thống Thử nghiệm hệ thống đã học Tối ưu hóa các tham số của hệ thống... • PD
Trang 1Xử lý ngôn ngữ tư nhiên
Đề tài: Phân loại văn bản: Lọc thư rác GVHD: PGS.TS Lê Thanh Hương
Nhóm sinh viên thực hiện:
1 Trần Việt Đức – 20086084
2 Dương Nữ Nguyệt Linh – 20081516
3 Trương Công Trọng Nghĩa– 20081877
4 Nguyễn Thị Minh Thùy – 20082598
Trang 2I Giới thiệu
• 1.1 Vấn đề Spam Email.
• 1.2 Học máy.
Tập dữ liệu
(Data set)
Tập thử nghiệm (Test set)
Tập học (Training set)
Tập tối ưu (Validation set)
Huấn luyện
hệ thống
Thử nghiệm
hệ thống đã học
Tối ưu hóa
các tham số của hệ thống
Trang 3I Giới thiệu
• 1.3 Định lý Bayes.
• P(h): Xác suất trước rằng giả thiết (phân lớp)
h là đúng.
• P(D): Xác suất trước rằng tập dữ liệu D được quan sát(thu được).
• P(D|h): Xác suất của việc quan sát được(thu được) tập dữ liệu D, với điều kiện giả thiết h là đúng.
• P(h|D): Xác suất của giả thiết h là đúng, với điều kiện tập dữ liệu D được quan sát.
• 1.4 Khái niệm “Token”:
( | ) ( ) ( | )
( )
P D h P h
P h D
P D
Trang 4II Phân loại Nạve Bayes
• 4.1 Tính xác suất spam của mỗi token phân tách.
o Theo Paulgraham.
o Số token tỉ lệ với số email.
o Vậy ta cĩ:
S N
s N
p X w C spam
s n
N N
S N
s T
p X w C spam
s n
T T
Trang 5II Phân loại Nạve Bayes
• Khi số lần 1 token xuất hiện lớn hơn số token phân biệt?
• Khi token chỉ xuất hiện ở một kho?
min(1, )
min(1, ) min(1, )
S
s T
p X w C spam
min(1, )
min(1, ) min(1, )
S
s T
p X w C spam m M min N
Trang 6II Phân loại Nạve Bayes
• Cuối cùng áp dụng cơng thức nạve bayes.
• Vậy xác suất một từ spam tính theo cơng thức.
1
n
i i i
n
i i
k spam ham i
P C spam P X x C c
P C spam X x
P C k P X x C k
1
n
i i i
n
i i
k spam non spam i
P C c P X x C c
P C c X x
P C k P X x C c
Trang 7III Các chỉ sô đánh giá hiệu quả
phân loại mail.
• 3.1 Spam Recall và Spam Precision.
• 3.2 Tỉ lệ lỗi Error và Tỉ lệ chính xác Accuary.
n
n
N S S N
N S
Err
N N S S
N S
Acc
Trang 8III Các chỉ sô đánh giá hiệu quả
phân loại mail.
• 3.3 Tỉ lệ lỗi gia trọng Weighted Error và tỉ lệ chính xác gia trọng Weighted Accurary.
• Chọn 𝜆 ngưỡng phân loại email:
WAcc
WErr
Trang 9III Các chỉ sô đánh giá hiệu quả
phân loại mail.
• 3.4.1 Tỉ số chi phí tổng hợp.
• Tỉ lệ chính xác gia trọng
trường hợp “ranh giới”.
• Tỉ lệ lỗi gia trọng trường
hợp “ranh giới”.
• Tỉ số chí phí tổng hợp.
N WAcc
N S
N WErr
N N
b
S
N S S N
N WErr
TCR
WErr n n
Trang 10IV Thử nghiệm
• 5.1 Tập dữ liệu.
o Nhóm em dùng kho dữ liệu email chữ.
o Tập huấn luyện:
• 922 email non-spam và 594 email spam.
o Tỉ lệ: ≈ 0.64425.
o Tập kiểm thử:
• 73 smail non-spam và 47 email spam.
o Tỉ lệ: ≈ 0.64384.
• 5.2 Kết quả thực nghiệm.
o Nếu ta chọn ngưỡng phân loại email 0.5 tức là = 1 ngưỡng phân loại 𝜆 = 1 ngưỡng phân loại
o Quá trình thử nghiệm
• Spam: cho ra 45 email cho ra là spam còn 2 email là non-spam.
• Non-spam: cho ra 71 email non-spam và 1 email spam.
•
Trang 11IV Thử nghiệm
o Tính các giá trị recall và precision
o Re = = 95.7%
o Pr = 97.8%
o Tỉ lệ lỗi và tỉ lệ chính xác
• Acc = = 97.5%
• Err = = 2.5%
o Tỉ lệ lỗi gia trọng và tỉ lệ chính xác gia trọng
• Wacc = 97.5%
• WErr = 2.5%
•
Trang 12IV Thử nghiệm
Trang 13V Nhận xét
• Ưu điểm.
• Nhược điểm.
• Question/Answer.
Trang 14Cám ơn vì đã lắng nghe