Thống kê số lần xuất hiện của từ khóa trong văn bản Lọc và thống kê thông tin và hệ thống lọc và thống kê thông tin Lọc và thống kê thông tin theo từ khóa Thuật toán Bayesian và ứng dụng trong lọc spam mail Chương trình Trước khi Internet ra đời, đã có một số phương pháp lọc thông tin Với sự ra đời của Internet, bất kể ai cũng có thể cung cấp thông tin nhanh với chi phí thấp. Với sự ra đời và tăng nhanh của thông tin dạng điện tử, thì vấn đề về lọc thông tin một cách tự động trở nên quan trọng
Trang 1Thống kê số lần
xuất hiện của từ
khóa trong văn
bản
GV: PGS.TS Trịnh Nhật Tiến
HV: Lê Xuân Thành
Mã HV: 13025180
Mật mã và An toàn dữ liệu - 5/2014 Đại học Công Nghệ - ĐH QGHN
Trang 2Nội dung
1 Lọc và thống kê thông tin và hệ thống lọc và
thống kê thông tin
2 Lọc và thống kê thông tin theo từ khóa
3 Thuật toán Bayesian và ứng dụng trong lọc spam
4 Chương trình
Trang 3• Trước khi Internet ra đời, đã có một số phương pháp lọc thông tin
• Với sự ra đời của Internet, bất kể ai cũng có
thể cung cấp thông tin nhanh với chi phí thấp
• Với sự ra đời và tăng nhanh của thông tin dạng điện tử, thì vấn đề về lọc thông tin một cách tự động trở nên quan trọng
• Lọc thông tin là lĩnh vực nghiên cứu các quá
trình cung cấp thông tin thích hợp, ngăn ngừa
và loại bỏ thông tin không thích hợp cho người sử dụng
Lọc và thống kê thông tin và hệ thống lọc thông tin
Trang 4Lọc và thống kê thông tin theo từ khóa
• Từ khóa là một chuỗi các ký tự (như một từ,
một cụm từ hoặc từ viết tắt) Lọc thông tin theo từ khóa cho phép bạn ngăn chặn những trang web, những email, … có nội dung không phù
hợp
• Nhược điểm: chỉ kiểm tra nội dung dạng văn
bản, không thực hiện kiểm tra đối với các hình ảnh
Trang 5Thuật toán Bayes và ứng dụng
lọc spam mail
• Bộ lọc Bayesian hoạt động dựa trên định lý
Bayes để tính toán xác suất xảy ra một sự kiện dựa vào những sự kiện xảy ra trước đó
• Trước khi có thể lọc email bằng bộ lọc
Bayesian, người dùng cần tạo ra cơ sở dữ liệu
từ khóa và dấu hiệu
• Mỗi từ hoặc mỗi dấu hiệu sẽ được cho một giá trị xác suất xuất hiện, giá trị này dựa trên việc tính toán có bao nhiêu từ thường hay sử dụng trong spam, mà trong các email hợp lệ thường không sử dụng
Trang 6Công thức tính xác suất của giải
thuật Bayes
• Xác suất để một tài liệu di thuộc vào lớp văn bản ck
) (
)
| (
* )
( )
|
(
i
k i
k i
k
d P
c d
P c
P d
c
Trang 7Công thức tính xác suất của giải
thuật Bayes
• Ý tưởng dựa trên xác suất xuất hiện của một
từ hay cụm từ trên một lớp mail
• Xác suất một email là thư rác:
Trong đó :
- c1 là lớp thư rác, c2 là lớp thư hợp lệ
- x là một email bất kì
) (
* )
| ( )
(
* )
| (
) (
* )
|
( )
|
(
2 2
1 1
1
1 1
c P c
x P c
P c
x P
c P c
x
P x
c
P
+
=
Trang 8Biểu diễn từ khóa(đặc trưng)
sender
subject content
Đếm và loại spamword
Loại stopword
Tách từ đơn
T ập từ khóa (đặc trưng) Tập spamword
Trang 9DEMO