1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống quét thư rác trên môi trường phân tán

22 417 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng hệ thống quét thư rác trên môi trường phân tán
Tác giả Trần Kinh Lý, Phạm Quốc Mỹ
Người hướng dẫn GVC. Cao Đăng Tân, ThS. Đào Anh Tuấn
Trường học Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 22
Dung lượng 1,02 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xây dựng hệ thống quét thư rác trên môi trường phân tán

Trang 1

XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN

Trang 3

Page  3

 Mục đích chọn luận văn

địa chỉ từ người gửi

=> luận văn dựa vào nội dung của thư

=> tốc độ quét thư chậm

=> quét thư trên môi trường song song

Vì những lý do trên đề tài “Xây dựng hệ thống quét thư rác trên môi trường phân tán” được hình thành

Tổng quan về luận văn

Trang 4

 Định nghĩa thư rác:

thư rác là thư điện tử không theo mong muốn của người nhận và trong số

đó các thư điện tử quảng cáo, thương mại chiếm đa số

Tổng quan về thư rác

Trang 5

Page  5

 Các đặc tính của thư rác:

Tổng quan về thư rác

Trang 6

 Blacklisting: danh sách địa chỉ không tin cậy

 Whitelisting: danh sách địa chỉ tin cậy.

 Heuristic filtering: dựa vào tập luật

email

Các kỹ thuật lọc thư rác

Trang 8

Bộ lọc xác định đúng?

Sai

Không

Đúng

Trang 9

-Tính giá trị cho các từ

- Tính xác xuất chung của thông điệp để xác định thông điệp đó có phải là spam hay không.

- Học lại các thông điệp mà người dùng báo

đã phân loại sai

Cải tiến

- Bỏ các tag HTML, các dấu chấm câu, các ký hiệu không

có nghĩa.

- Đối với tiếng Việt nên bỏ các

hư từ (thì, là, mà )

- Quét các tập tin đính kèm để trích văn bản nội dung cho bộ tách từ (word, excel, power point và pdf).

Trang 10

Kiểm tra độ chính xác của bộ lọc thư rác

Trang 11

Page  11

 Kỹ thuật so khớp

» Tỉ số độ dài nội dung hai thư (đã tách từ) cần so khớp xấp xỉ 1,1

» Ngưỡng độ tương tự khi phân loại là thư rác là 0,7.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Nội dung thư rác đã lưu Nội dung thư cần phân loại

độ tương tự

Trang 12

 Mô hình hệ thống

Hệ thống thử nghiệm

Trang 13

Page  13

 Mô hình xử lý trên dữ liệu riêng của mỗi người dùng

Hệ thống thử nghiệm

Trang 14

 Quá trình quét thư rác

Hệ thống thử nghiệm

Là Spam ?

Kỹ thuật thống kê

Trang 15

Page  15

Hệ thống thử nghiệm

 Kết quả thử nghiệm trên phân tán

Trang 16

False positive

False negative

Chín

h xác

Không chính xác

Trang 17

Page  17

 Lý thuyết

phát hiện thư rác đã có

kê và so khớp dùng trong hệ thống thử nghiệm

Các kết quả đạt được

Trang 18

 Ứng dụng

trên môi trường phân tán, ứng dụng kỹ thuật so khớp và kỹ thuật thống kê

chính xác xấp xỉ 94% sau khi thực nghiệm

Các kết quả đạt được

Trang 19

Page  19

 Đánh giá

» Khả năng thích nghi (học) cao với sự tiến hóa của thư rác rất nhanh.

» Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một tập dữ liệu riêng Chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể.

» Phải mất một khoảng thời gian đầu huấn luyện cho bộ lọc.

Các kết quả đạt được

Trang 20

• Kết hợp hệ thống thực nghiệm mà nhóm xây dựng với các hệ thống quét thư rác khác (như Spam Assassin, Spam Fighter, …).

tiếp mail vào hệ thống quét

thông điệp

Hướng phát triển

Trang 21

Page  21

Mô hình hệ thống cải tiến

Ngày đăng: 22/01/2013, 08:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w