1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thống kê số lần xuất hiện của từ khóa trong văn bản

9 631 3

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 834,56 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thống kê số lần xuất hiện của từ khóa trong văn bản Lọc và thống kê thông tin và hệ thống lọc và thống kê thông tin Lọc và thống kê thông tin theo từ khóa Thuật toán Bayesian và ứng dụng trong lọc spam mail Chương trình Trước khi Internet ra đời, đã có một số phương pháp lọc thông tin Với sự ra đời của Internet, bất kể ai cũng có thể cung cấp thông tin nhanh với chi phí thấp. Với sự ra đời và tăng nhanh của thông tin dạng điện tử, thì vấn đề về lọc thông tin một cách tự động trở nên quan trọng

Trang 1

Thống kê số lần

xuất hiện của từ

khóa trong văn

bản

GV: PGS.TS Trịnh Nhật Tiến

HV: Lê Xuân Thành

Mã HV: 13025180

Mật mã và An toàn dữ liệu - 5/2014 Đại học Công Nghệ - ĐH QGHN

Trang 2

Nội dung

1 Lọc và thống kê thông tin và hệ thống lọc và

thống kê thông tin

2 Lọc và thống kê thông tin theo từ khóa

3 Thuật toán Bayesian và ứng dụng trong lọc spam

mail

4 Chương trình

Trang 3

• Trước khi Internet ra đời, đã có một số phương pháp lọc thông tin

• Với sự ra đời của Internet, bất kể ai cũng có

thể cung cấp thông tin nhanh với chi phí thấp

• Với sự ra đời và tăng nhanh của thông tin dạng điện tử, thì vấn đề về lọc thông tin một cách tự động trở nên quan trọng

• Lọc thông tin là lĩnh vực nghiên cứu các quá

trình cung cấp thông tin thích hợp, ngăn ngừa

và loại bỏ thông tin không thích hợp cho người sử dụng

Lọc và thống kê thông tin và hệ thống lọc thông tin

Trang 4

Lọc và thống kê thông tin theo từ khóa

• Từ khóa là một chuỗi các ký tự (như một từ,

một cụm từ hoặc từ viết tắt) Lọc thông tin theo từ khóa cho phép bạn ngăn chặn những trang web, những email, … có nội dung không phù

hợp

• Nhược điểm: chỉ kiểm tra nội dung dạng văn

bản, không thực hiện kiểm tra đối với các hình ảnh

Trang 5

Thuật toán Bayes và ứng dụng

lọc spam mail

• Bộ lọc Bayesian hoạt động dựa trên định lý

Bayes để tính toán xác suất xảy ra một sự kiện dựa vào những sự kiện xảy ra trước đó

• Trước khi có thể lọc email bằng bộ lọc

Bayesian, người dùng cần tạo ra cơ sở dữ liệu

từ khóa và dấu hiệu

• Mỗi từ hoặc mỗi dấu hiệu sẽ được cho một giá trị xác suất xuất hiện, giá trị này dựa trên việc tính toán có bao nhiêu từ thường hay sử dụng trong spam, mà trong các email hợp lệ thường không sử dụng

Trang 6

Công thức tính xác suất của giải

thuật Bayes

• Xác suất để một tài liệu di thuộc vào lớp văn bản ck

) (

)

| (

* )

( )

|

(

i

k i

k i

k

d P

c d

P c

P d

c

Trang 7

Công thức tính xác suất của giải

thuật Bayes

• Ý tưởng dựa trên xác suất xuất hiện của một

từ hay cụm từ trên một lớp mail

• Xác suất một email là thư rác:

Trong đó :

 - c1 là lớp thư rác, c2 là lớp thư hợp lệ

 - x là một email bất kì

) (

* )

| ( )

(

* )

| (

) (

* )

|

( )

|

(

2 2

1 1

1

1 1

c P c

x P c

P c

x P

c P c

x

P x

c

P

+

=

Trang 8

Biểu diễn từ khóa(đặc trưng)

sender

subject content

Đếm và loại spamword

Loại stopword

Tách từ đơn

T ập từ khóa (đặc trưng) Tập spamword

Trang 9

DEMO

Ngày đăng: 19/10/2014, 20:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w