Xây dựng hệ thống quét thư rác trên môi trường phân tán
Trang 1XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN
Trang 3Page 3
Mục đích chọn luận văn
địa chỉ từ người gửi
=> luận văn dựa vào nội dung của thư
=> tốc độ quét thư chậm
=> quét thư trên môi trường song song
Vì những lý do trên đề tài “Xây dựng hệ thống quét thư rác trên môi trường phân tán” được hình thành
Tổng quan về luận văn
Trang 4 Định nghĩa thư rác:
thư rác là thư điện tử không theo mong muốn của người nhận và trong số
đó các thư điện tử quảng cáo, thương mại chiếm đa số
Tổng quan về thư rác
Trang 5Page 5
Các đặc tính của thư rác:
Tổng quan về thư rác
Trang 6 Blacklisting: danh sách địa chỉ không tin cậy
Whitelisting: danh sách địa chỉ tin cậy.
Heuristic filtering: dựa vào tập luật
Các kỹ thuật lọc thư rác
Trang 8Bộ lọc xác định đúng?
Sai
Không
Đúng
Trang 9-Tính giá trị cho các từ
- Tính xác xuất chung của thông điệp để xác định thông điệp đó có phải là spam hay không.
- Học lại các thông điệp mà người dùng báo
đã phân loại sai
Cải tiến
- Bỏ các tag HTML, các dấu chấm câu, các ký hiệu không
có nghĩa.
- Đối với tiếng Việt nên bỏ các
hư từ (thì, là, mà )
- Quét các tập tin đính kèm để trích văn bản nội dung cho bộ tách từ (word, excel, power point và pdf).
Trang 10Kiểm tra độ chính xác của bộ lọc thư rác
Trang 11Page 11
Kỹ thuật so khớp
» Tỉ số độ dài nội dung hai thư (đã tách từ) cần so khớp xấp xỉ 1,1
» Ngưỡng độ tương tự khi phân loại là thư rác là 0,7.
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng
Nội dung thư rác đã lưu Nội dung thư cần phân loại
độ tương tự
Trang 12 Mô hình hệ thống
Hệ thống thử nghiệm
Trang 13Page 13
Mô hình xử lý trên dữ liệu riêng của mỗi người dùng
Hệ thống thử nghiệm
Trang 14 Quá trình quét thư rác
Hệ thống thử nghiệm
Là Spam ?
Kỹ thuật thống kê
Trang 15Page 15
Hệ thống thử nghiệm
Kết quả thử nghiệm trên phân tán
Trang 16False positive
False negative
Chín
h xác
Không chính xác
Trang 17Page 17
Lý thuyết
phát hiện thư rác đã có
kê và so khớp dùng trong hệ thống thử nghiệm
Các kết quả đạt được
Trang 18 Ứng dụng
trên môi trường phân tán, ứng dụng kỹ thuật so khớp và kỹ thuật thống kê
chính xác xấp xỉ 94% sau khi thực nghiệm
Các kết quả đạt được
Trang 19Page 19
Đánh giá
» Khả năng thích nghi (học) cao với sự tiến hóa của thư rác rất nhanh.
» Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một tập dữ liệu riêng Chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể.
» Phải mất một khoảng thời gian đầu huấn luyện cho bộ lọc.
Các kết quả đạt được
Trang 20• Kết hợp hệ thống thực nghiệm mà nhóm xây dựng với các hệ thống quét thư rác khác (như Spam Assassin, Spam Fighter, …).
tiếp mail vào hệ thống quét
thông điệp
Hướng phát triển
Trang 21Page 21
Mô hình hệ thống cải tiến