1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định

81 868 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 1,34 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ MỞ ĐẦU Thư rác spam là thư điện tử được gửi hàng loạt với nội dung mà người nhận khơng mong đợi, khơng muốn xem, hay chứa những nội

Trang 1

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG

ĐINH QUANG THÁI

NGHIÊN CỨU PHƯƠNG PHÁP LỌC SPAM VÀ ỨNG DỤNG TRONG BẢO MẬT HỆ THỐNG THƯ ĐIỆN TỬ TẠI

SỞ THƠNG TIN VÀ TRUYỀN THƠNG TỈNH NAM ĐỊNH

nh

Mã số: 60 48 01

TS Nguyễn Ngọc Cương

Thái Nguyên - 2013

Trang 2

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

LỜI CAM ĐOAN

Tơi xin cam đoan rằng, đây là cơng trình nghiên cứu của tơi trong đĩ cĩ sự giúp đỡ tận tình của thầy hướng dẫn và các thầy cơ tại Học viện An ninh nhân dân,

sự hỗ trợ của các đồng nghiệp tại Sở Thơng tin và Truyền thơng Nam Định Các nội dung nghiên cứu và kết quả trong đề tài này là hồn tồn trung thực

Trong luận văn, tơi cĩ tham khảo đến một số tài liệu của một số tác giả đã được liệt kê tại phần Tài liệu tham khảo ở cuối luận văn

Thái Nguyên, ngày 15 tháng 7 năm 2013

Tác giả

ĐINH QUANG THÁI

Trang 3

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

LỜI CẢM ƠN

Để hồn thành chương trình Cao học và viết luận văn này, tơi đã nhận được

sự hướng dẫn, giúp đỡ và gĩp ý nhiệt tình của quý thầy cơ trường Đại học Cơng nghệ Thơng tin và Truyền thơng Thái Nguyên

Trước hết, tơi xin chân thành cảm ơn đến quý thầy cơ trường Đại học Cơng nghệ Thơng tin và Truyền thơng - Đại học Thái Nguyên, các thầy cơ Học viện An ninh nhân dân, đặc biệt là những thầy đã tận tình dạy bảo cho tơi trong suốt thời gian học tập tại trường

Tơi xin gửi lời biết ơn sâu sắc đến Tiến sĩ Nguyễn Ngọc Cương - Học viện

An ninh nhân dân đã dành rất nhiều thời gian và tâm huyết hướng dẫn nghiên cứu

và giúp tơi hồn thành luận văn tốt nghiệp

Nhân đây, tơi xin chân thành cảm ơn Ban giám hiệu trường Đại học Cơng nghệ Thơng tin và Truyền thơng đã tạo rất nhiều điều kiện để tơi học tập và hồn thành tốt khĩa học

Mặc dù tơi đã cĩ nhiều cố gắng hồn thiện luận văn bằng tất cả sự nhiệt tình

và năng lực của mình, tuy nhiên khơng thể tránh khỏi những thiếu sĩt, tơi rất mong nhận được những đĩng gĩp quí báu của quý thầy cơ và các bạn

Lời cảm ơn sau cùng tơi xin dành cho gia đình và những người bạn đã hết lịng quan tâm và tạo điều kiện tốt nhất để tơi hồn thành luận văn tốt nghiệp này!

Tơi xin chân thành cảm ơn!

Thái Nguyên, ngày 15 tháng 7 năm 2013

Học viên thực hiện Đinh Quang Thái - Lớp CK10A Trường Đại học CNTT&TT – Đại học Thái Nguyên

Trang 4

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC HÌNH v

DANH MỤC CÁC BẢNG vii

DANH MỤC TỪ VIẾT TẮT viii

MỞ ĐẦU 1

Chương 1: TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ SPAM 3

1.1 Các khái niệm cơ bản 3

1.1.1 Thư điện tử là gì? 3

1.1.2 Cấu trúc chung của một địa chỉ thư điện tử 3

1.1.3 Sự khác biệt giữa thư điện tử với thư bưu chính 3

1.1.4 Thư rác là gì? 4

1.1.5 Các loại thư rác 5

1.1.6 Tác hại của thư rác 6

1.2 Phương thức trao đổi thơng tin qua dịch vụ Email 7

1.2.1 Mơ hình trao đổi thơng tin dựa trên email 7

1.2.2 Giao thức và ngơn ngữ sử dụng 9

1.3 Các phần mềm lọc nội dung mail ở trong và ngồi nước 11

Chương 2: CÁC PHƯƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM 15

2.1 Các kỹ thuật gửi mail nặc danh và Bomb Mail 15

2.1.1 Thu thập địa chỉ email 15

2.1.2 Tìm kiếm các máy tính trên Internet cho phép gửi thư 18

2.1.3 Boml Mail 20

2.2 Mơ hình và nguyên lý hoạt động của hệ thống lọc nội dung Mail 22

2.2.1 Mơ hình hệ thống lọc mail 22

2.2.2 Kiến trúc tổng quan của hệ thống lọc mail 24

2.2.3 Các kỹ thuật lọc nội dung thơng tin qua mail 26

2.2.4 Kỹ thuật lọc Spam 30

Chương 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM VÀ ĐỀ XUẤT CÁC GIẢI PHÁP PHỊNG CHỐNG SPAM 44

3.1 Xây dựng chương trình lọc spam cho các ứng dụng thư điện tử 44

3.1.1 Nhiệm vụ của chương trình 44

3.1.2 Các cơng nghệ sử dụng 44

Trang 5

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

3.1.3 Các chức năng chính của chương trình 45

3.2 Thử nghiệm hệ thống thư điện tử tại Sở Thơng tin và Truyền thơng tỉnh Nam Định 46

3.2.1 Khảo sát việc sử dụng mail tại Sở Thơng tin và Truyền thơng tỉnh Nam Định 46

3.2.2 Dữ liệu thử nghiệm 47

3.2.3 Phương pháp thử nghiệm 48

3.2.4 Thử nghiệm chương trình 49

3.2.4 So sánh phương pháp phân loại 55

3.2.5 Lựa chọn độ dài và số lượng đặc trưng 56

3.2.6 Phân biệt theo ngơn ngữ trước khi lọc 58

3.2.7 Nhận xét kết quả thử nghiệm 58

3.3 Đề xuất các giải pháp phịng chống spam 59

3.3.1 Giải pháp phịng chống tại mail server 59

3.3.2 Giải pháp phịng chống tại mail client 65

3.3.3 Giải pháp phía người sử dụng mail 67

KẾT LUẬN CHUNG 70

TÀI LIỆU THAM KHẢO 71

Trang 6

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

DANH MỤC CÁC HÌNH

Hình 1.1: Mơ hình lưu chuyển thư điện tử qua Internet 7

Hình 1.2: Mơ hình gửi và nhận thư điện tử sử dụng giao thử SMTP 10

Hình 1.3: Mơ hình gửi và nhận thư điện tử dùng giao thức IMAP và POP 11

Hình 1.4: Phần mềm lọc nội dung mail 12

Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng 16

Hình 2.2: Một số website của các cơng ty gửi thư rác 18

Hình 2.3: Minh họa cách gửi thư rác qua mail server (open relay) 19

Hình 2.4: Các phương án bộ trí hệ thống lọc thư 23

Hình 2.5: Kiến trúc chung của hệ thống lọc thư 25

Hình 2.6: Mơ hình tổng quát lọc thư rác Tiếng Việt 29

Hình 2.7: Lưu lượng thư trong một mơi trường SPF 34

Hình 2.8: Cách thức làm việc của SPF 34

Hình 2.9: Lọc thư rác bằng phương pháp chặn IP 35

Hình 2.10: Thơng tin header của email 42

Hình 3.1: Nhiệm vụ của chương trình lọc thư rác 44

Hình 3.2: Chức năng của phần mềm lọc thư rác 46

Hình 3.3: Giao diện form thiết lập thơng số huấn luyện hệ thống 49

Hình 3.4: Lựa chọn thư mục chứa các thư mẫu cho việc huấn luyện 50

Hình 3.5: Giao diện form đã tiến hành huấn luyện tập mẫu thư thường 51

Hình 3.6: Giao diện thiết lập danh sách hịm thư cần chặn lọc 51

Hình 3.7: Cửa sổ xác nhận việc cập nhật danh sách hịm thư cần chặn lọc 52

Hình 3.8: Giao diện thiết lập từ khĩa cần chặn lọc 52

Hình 3.9: Cửa sổ xác nhận việc cập nhật danh sách từ khĩa cần chặn lọc 52

Hình 3.10: Xác nhận sử dụng tính năng lọc thư rác của chương trình 53

Hình 3.11: Hịm thư khi chưa chạy chương trình lọc thư rác 53

Hình 3.12: Thống kê kết quả lọc thư rác của chương trình 54

Hình 3.13: Thư rác đã được đánh dấu trong trình xem thư Outlook 54

Trang 7

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Hình 3.14: Giao diện tab giới thiệu chương trình 55

Hình 3.15: Xác nhận việc thốt khỏi chương trình 55

Hình 3.16: Độ chính xác phân loại chung với số lượng đặc trưng khác nhau 57

Hình 3.17: Độ chính xác phân loại với các quy trình lọc khác nhau 59

Hình 3.18: Phương thức hoạt động của SPF 60

Hình 3.19: Phương thức hoạt động của SPF động 62

Hình 3.20: Phân bố số lượng cặp (tên miền, IP) theo thơi gian 64

Hình 3.21: Hiệu quả phương pháp SPF động 64

Trang 8

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

DANH MỤC CÁC BẢNG

Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống 4

Bảng 1.2: Thống kê các dạng thư rác tại máy chủ 6

Bảng 3.1 Bộ dữ liệu thử nghiệm 48

Bảng 3.2 Độ chính xác phân loại với các phương pháp phân loại khác nhau 56

Bảng 3.3 Kết quả phân loại với độ dài đặc trưng - từ khác nhau 57

Bảng 3.4 : Bảng dữ liệu mẫu sử dụng phương pháp SPF động 63

Trang 9

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

DANH MỤC TỪ VIẾT TẮT

SPAM: Thư rác

EMAIL: Thư điện tử

SMTP: Simple Mail Transfer Protocol

IMAP: Internet Message Access Protocol

POP: Post Office Protocol

Trang 10

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

MỞ ĐẦU

Thư rác (spam) là thư điện tử được gửi hàng loạt với nội dung mà người nhận

khơng mong đợi, khơng muốn xem, hay chứa những nội dung khơng liên quan đến người nhận và thường được sử dụng để gửi thơng tin quảng cáo Do cĩ giá thành tương đối thấp so với các phương pháp quảng cáo khác, thư rác hiện chiếm một tỷ

lệ lớn và ngày càng tăng trong tổng số thư điện tử được gửi qua Internet Sự xuất hiện và gia tăng thư rác khơng những gây khĩ chịu và làm mất thời gian của người nhận mà cịn ảnh hưởng tới đường truyền Internet và làm chậm tốc độ xử lý của máy chủ thư điện tử, gây thiệt hại lớn về kinh tế

Để loại bỏ hoặc giảm thiểu ảnh hưởng của thư rác, nhiều cách tiếp cận khác nhau đã được nghiên cứu và sử dụng Giải pháp đấu tranh với thư rác rất đa dạng, bao gồm từ các cố gắng về pháp lý trong việc xây dựng luật ngăn chặn phát tán thư rác cho tới những giải pháp kỹ thuật nhằm phát hiện và ngăn chặn thư rác trong những giai đoạn khác nhau của quá trình tạo và phát tán thư Trong số giải pháp

được sử dụng, lọc thư theo nội dung đang là một trong những giải pháp được sử

dụng rộng rãi và cĩ triển vọng nhất Lọc thư theo nội dung là phương pháp phân tích nội dung thư để phân biệt thư rác với thư bình thường, kết quả phân tích sau đĩ được sử dụng để quyết định chuyển tiếp thư đến người nhận hay khơng (trong phạm

vi nghiên cứu này, nội dung thư được giới hạn là những nội dung trình bày dưới dạng văn bản)

Do việc lọc theo nội dung địi hỏi phân tích phần văn bản chứa trong tiêu đề hay nội dung thư, thuật tốn lọc nội dung cần được xây dựng phù hợp với ngơn ngữ

mà thư sử dụng Hiện nay, nhiều thuật tốn lọc nội dung hiệu quả đã được nghiên cứu và sử dụng cho thư viết bằng tiếng Anh

Trong vịng vài năm gần đây, việc sử dụng Internet nĩi chung và thư điện tử nĩi riêng ngày càng phổ biến tại Việt nam Một trong những hệ quả của sự phát triển này là ngày càng cĩ nhiều thư rác gửi tới các tài khoản thư điện tử tại Việt nam (tài khoản cĩ đuơi vn) Những thư rác này bao gồm cả thư viết bằng tiếng Anh và thư viết bằng tiếng Việt Việc xuất hiện ngày càng nhiều thư rác tiếng Việt đặt ra yêu cầu cấp thiết phải cĩ những phương pháp lọc thư cĩ thể xử lý được thư rác loại này

Trang 11

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Do các thuật tốn lọc thư thơng dụng mới chỉ được nghiên cứu và thử nghiệm cho tiếng Anh, để cĩ thể sử dụng giải pháp lọc nội dung cho thư tiếng Việt cần nghiên cứu làm rõ hiệu quả của thuật tốn khi phân tích nội dung thư viết bằng tiếng Việt Bên cạnh đĩ cần thực hiện những cải tiến cho phù hợp khi chuyển từ phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt Để giải quyết những vấn đề vừa nêu, trong phạm vi đề tài này, tơi tiến hành nghiên cứu một số giải pháp lọc nội dung cho thư rác tiếng Việt và tiếng Anh Nội dung nghiên cứu bao gồm thử nghiệm làm rõ khả năng lọc thư tiếng Việt, đề xuất và phân tích so sánh các cải tiến với thuật tốn, thử nghiệm trên dữ liệu thực Sau khi thử nghiệm so sánh, giải pháp lọc thư cĩ hiệu quả cao sẽ được cài đặt trong một bộ lọc thư cĩ khả năng tích hợp vào máy chủ thư điện tử

Luận văn hồn thành gồm 68 trang và được bố cục thành 3 chương với lời

mở đầu và phần kết luận chung:

Phần mở đầu trình bày vắn tắt ý nghĩa, tính cấp thiết của đề tài, nêu nên

mục tiêu đề tài, xác định các bài tốn nghiên cứu và giới thiệu tĩm tắt các chương trong luận văn

Chương 1 Tổng quan về thư điện tử và spam Trong chương này trình

bày các khái niệm về thư tín truyền thống, thư điện tử, spam và mơ hình, ngơn ngữ

và giao thức sử dụng của thư điện tử, các phần mềm lọc nội dung thư hiện nay

Chương 2 Các phương pháp gửi và kỹ thuật lọc Email – Spam Trình

bày kỹ thuật gửi mail nặc danh, mơ hình và nguyên lý hoạt động của hệ thống lọc nội dung mail, Các kỹ thuật lọc nội dung thơng tin qua mail

Chương 3 Xây dựng chương trình thử nghiệm và đề xuất các giải pháp phịng chống spam Trình bày các nội dung cài đặt thử nghiệm, cơng nghệ áp dụng

và kết quả chương trình lọc spam cho các ứng dụng thư điện tử tại Sở Thơng tin và Truyền thơng tỉnh Nam Định Đề xuất các giải pháp phịng chống spam

Phần kết luận chung nêu tĩm tắt các kết quả đạt được của luận văn

Trang 12

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Chương 1: TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ SPAM

Trong chương này trình bày các khái niệm về thư tín truyền thống, thư điện

tử, spam và mơ hình, ngơn ngữ và giao thức sử dụng của thư điện tử, các phần mềm lọc nội dung thư hiện nay.

1.1 Các khái niệm cơ bản

1.1.1 Thư điện tử là gì?

Thư điện tử (Email – Electronic Mail) là một hệ thống chuyển nhận thư qua các mạng máy tính Thư điện tử (Email) là một trong những phương thức trao đổi thơng tin phổ biến trong suốt quá trình phát triển Internet Ban đầu email chỉ là những văn bản text đơn giản, mức độ bảo mật cũng được nâng cao dần lên, khi đĩ email được mã hĩa dưới nhiều dạng Email là phương tiện thơng tin tốc độ cao Mẫu thư cĩ thể được gửi đi dưới nhiều dạng, cĩ thể ở dạng văn bản text thơng thường, hoặc cĩ thể ở dạng mã hĩa, và nĩ được chuyển qua các mạng máy tính, đặc biệt là mạng Internet

1.1.2 Cấu trúc chung của một địa chỉ thư điện tử

Một địa chỉ thư điện tử bao gồm : tên[email]@tên_miền Trong đĩ:

- Tên_email : là định danh của hịm thư điện tử, thành phần này do người sử dụng tự đặt ra khi khởi tạo hịm thư cho mình

- Tên_miền : là tên miền cung cấp dịch vụ thư điện tử, ví dụ như yahoo.com, gmail.com,…

1.1.3 Sự khác biệt giữa thư điện tử với thư bưu chính

Giữa thư điện tử và thư bưu chính (thư tín truyền thống) cĩ những điểm tương đồng, song cĩ những điểm khác biệt được thể hiện qua bảng so sánh:

Trang 13

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Khả năng soạn thảo Chậm (viết giấy) Nhanh (viết bằng trình

soạn thảo được hỗ trợ) Mức độ thất lạc thư Cao Thấp (do đường truyền

lỗi) Thư tấn cơng Gửi kèm vũ khí sinh

học (Ít xảy ra)

Gửi kèm mã độc : Worm, Virus, … (Thường xuyên)

Thiệt hại do bị tấn cơng Nặng Tùy vào mức độ tấn cơng Khả năng chuyển tiếp thư Cĩ Cĩ

Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống

1.1.4 Thư rác là gì?

Hiện nay chưa cĩ một định nghĩa hồn chỉnh và chặt chẽ về thư rác Cĩ quan điểm chỉ coi thư rác là những thư quảng cáo khơng được yêu cầu (Unsolicited Commercial Email - UCE), cĩ quan điểm cĩ thư rác với nghĩa rộng hơn, bao gồm

cả thư quảng cáo, thư nhũng lạm (quấy rối), và những thư cĩ nội dung khơng lành mạnh (Unsolicited Bulk Email – UBE) Dưới đây sẽ đưa ra một định nghĩa thơng dụng nhất về thư rác và giải thích các đặc điểm của nĩ để phân biệt thư rác với thư thơng thường

Thư rác (spam) là những bức thư điện tử khơng yêu cầu, khơng mong muốn

và được gửi hàng loạt tới nhiều người nhận “Thư khơng yêu cầu” ở đây nghĩa là người nhận thư khơng yêu cầu người gửi gửi bức thư đĩ “Thư được gửi hàng loạt” nghĩa là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi cho nhiều người khác và các bức thư này cĩ nội dung tương tự nhau

Trang 14

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Một bức thư được gọi là thư rác chỉ khi nĩ là thư khơng yêu cầu và được gửi hàng loạt Nếu thư rác chỉ là thư khơng mong muốn thì nĩ cĩ thể là những bức thư làm quen, được gửi lần đầu tiên, cịn nến thư rác chỉ là thư được gửi hàng loạt thì nĩ

cĩ thể là những bức thư gửi cho khách hành của các cơng ty, các nhà cung cấp dịch

vụ

Như định nghĩa ở trên, thư rác là thư khơng yêu cầu và được gửi hàng loạt Nhưng yếu tố quan trọng nhất để phân biệt thư rác với thư thơng thường phải là ở nội dung bức thư Khi một người nhận được thư rác, người đĩ khơng thể xác định được thư cĩ được gửi hàng loạt hay khơng nhưng cĩ thể nĩi chính xác đĩ là thư rác sau khi xem nội dung thư Đặc điểm này chính là cơ sở cho giải pháp phân loại thư rác bằng cách phân tích nội dung thư

1.1.5 Các loại thư rác

Đa số thư rác là thư quảng cáo cho hàng hố hoặc dịch vụ Tuy nhiên cũng

tồn tại một lượng lớn thư rác mang những nội dung khác Các thư rác khơng mang nội dung quảng cáo hàng hố hay dịch vụ cĩ thể phân chia thành:

Thư cĩ nội dung chính trị: do các tổ chức hay cá nhân hoạt động chính trị

gửi trực tiếp tới người dùng thư điện tử để phục vụ mục đích quảng bá, tuyên truyền hay tạo quan hệ trực tiếp Hiện nay tại Việt nam, thư rác cĩ nội dung chính trị hầu hết là của các tổ chức phản động ngồi nước gửi về và cần đặc biệt ngăn chặn

Thư từ thiện: do các tổ chức hay cá nhân hoạt động từ thiện gửi với nội dung

yêu cầu quyên gĩp hay trợ giúp Người gửi thư dạng này cĩ thể khơng nhận thức được họ đang gửi thư rác do cĩ sự biện hộ từ mục đích gửi thư

Thư cĩ nội dung tơn giáo: dùng để tuyên truyền quảng bá cho các tổ chức

hoặc hoạt động tơn giáo

Trong số thư những thư quảng cáo, một số dạng hàng hố và dịch vụ chiếm

tỷ trọng đặc biệt lớn Dưới đây là kết quả phân tích thống kê các thư rác gửi qua máy chủ hotmail.com trong năm 2003 và 2004 do Microsoft thực hiện [Hulten - trends]

Trang 15

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Bảng 1.2: Thống kê các dạng thư rác tại máy chủ

Sản phẩm quảng cáo Năm 2003 Năm 2004 Quảng cáo liên quan đến tình dục (khơng đồ hoạ) 17% 34%

sự phát triển Internet nĩi chung và người sử dụng thư điện tử nĩi riêng Cĩ thể kể ra một số tác hại của thư rác:

- Thư rác gây thiệt hại về kinh tế cho người nhận thư trong trường hợp người nhận thư phải trả tiền cho lượng thơng tin truyền qua mạng

- Thư rác cĩ thể làm đầy hộp thư người nhận và do vậy làm thất lạc những thư bình thường đến sau

Trang 16

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

- Thư rác làm tốn thời gian do người nhận phải mở thư và xố thư khỏi hộp thư của mình

- Thư rác gây tâm lý xấu đối với người sử dụng thư điện tử Theo thống

kê tại http://www.pewinternet.org, 25% người sử dụng thư điện tử coi thư rác là trở ngại lớn khi sử dụng dịch vụ Internet này

- Thư rác chiếm một phần đường truyền Internet và làm tốn thời gian

xử lý của máy chủ

1.2 Phương thức trao đổi thơng tin qua dịch vụ Email

1.2.1 Mơ hình trao đổi thơng tin dựa trên email

Dịch vụ thư điện tử sử dụng giao thức SMTP (Simple Mail Transfer Protocol) trong họ giao thức TCP/IP

Hình 1.1: Mơ hình lưu chuyển thư điện tử qua Internet

Trang 17

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Hoạt động của hệ thống email hiện nay cĩ thể dược minh họa qua phân tích một thí dụ như sau:

1 Nguyễn dùng MUA của mình để soạn một lá thư cĩ địa chỉ người nhận là Trần với địa chỉ là Tran@b.org Nguyễn nhấn nút Send và phần mềm thư điện tử của Nguyễn áp dụng SMTP để gửi mẫu thơng tin (lá thư) đến MTA, hay máy chủ thư điện tử, của Nguyễn Trong thí dụ thì máy chủ này là smtp.a.org được cung cấp

từ dịch vụ Internet của Nguyễn

2 MTA này sẽ đọc địa chỉ chỗ nhận (tran@b.org) và dựa vào phần tên miền

nĩ sẽ tìm hỏi địa chỉ của tên miền này, nơi cĩ máy chủ sẽ nhận email gửi đến, qua

Hệ thống Tên miền

3 Máy chủ DNS của b.org là ns.b.org sẽ trả lời về một bản ghi trao đổi thư

từ, đây là bảng ghi chỉ ra cách thức làm thế nào định tuyến cho email này Trong thí

dụ thì mx.b.org là máy chủ từ dịch vụ cung ứng Internet của Trần

4 smtp.a.org gửi mẫu thơng tin tới mx.b.org dùng giao thức SMTP, điều này

sẽ phân phối lá thư đến hộp thư của Trần

5 Khi đọc Trần ra lệnh nhận thư trên máy (MUA) của Trần, điều này tạo ra việc lấy về mẫu thơng tin bằng cách áp dụng giao thức POP3

Trong trường hợp Nguyễn khơng cĩ MUA mà chỉ dùng Webmail chẳng hạn thì bước 1 sẽ khơng xảy ra tức là MTA của Nguyễn sẽ làm việc trực tiếp Tưong tự cho trường hợp Trần khơng cĩ MUA riêng

Trước đây, nếu một MTA khơng thể gửi tới đích thì nĩ cĩ thể ít nhất ngừng lại ở chỗ gần với chỗ nhận Sự ngừng này sẽ tạo cơ hội để máy đích cĩ thể nhận về các mẫu thơng tin trong thời gian trễ hơn Nhiều MTA sẽ chấp nhận tất cả mẫu thơng tin từ người gửi bất kì và tìm mọi cách để phân nĩ về đến máy đích Những MTA như vậy gọi là những ngưng đọng thư mở (open mail relays) Điều này khá cần thiết vì sự chất lượng liên lạc của hệ thống Internet lúc đĩ cịn yếu Ngày nay,

do việc lợi dụng trên cơ chế hoạt động của hệ thống thư điện tử nhiều người đã gửi

ra các loại thư vơ bổ Như là hậu quả, rất ít MTA ngày nay cịn chấp nhận các

Trang 18

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

ngưng đọng thư mở Bởi vì các thư như vậy rất cĩ thể là các loại thư nhũng lạm(thư rác)

Dịch vụ thư điện tử hoạt động offline Các yêu cầu gửi thư đi khơng địi hỏi phải xử lý ngay lập tức Khi người A muốn chuyển một bức thư tới cho người B, hệ thống sẽ chuyển thư vào vùng Spool, cùng với các thơng tin về người gửi, người nhận (được đính vào phần Header của thư) sẽ được chứa trong vùng này Hệ thống gửi thư tự động bằng một chương trình phần mềm thư điện tử như Outlook Express, Mozila Thunderbird, hay các chương trình Webmail như Yahoo!, Gmail,… Đây là những chương trình gửi thư khơng đồng bộ Chương trình này sẽ xác định được địa chỉ IP của máy cần gửi qua việc phân tích Header của thư, và tạo lập một kết nối tới máy đĩ Nếu như tạo kết nối thành cơng, chương trình sẽ chuyển thư tới vùng Spool của máy nhận Nếu kết nối tới máy nhận khơng thành cơng, chương trình sẽ lưu trữ lại những thư chưa được chuyển đi đĩ và sẽ gửi lại đến khi tạo dựng được kết nối Nếu bức thư tồn tại quá lâu (khoảng 2-3 ngày), chương trình sẽ gửi trả bức thư này cho người gửi

Thư điện tử ban đầu chỉ nhằm mục đích trao đổi thơng tin giữa những người

sử dụng với nhau Thư điện tử hiện đại được phát triển các dịch vụ kèm theo, đĩ là các dịch vụ thư điện tử như NameServer (tra cứu các địa chỉ trên mạng), ArchiveServer (cho phép người dùng tìm kiếm và tải về những tập tin dùng chung) Các thư này được gửi tới các Server, Server phân tích nội dung thư, thực hiện các yêu cầu rồi gửi trả lại kết quả cho người gửi yêu cầu cũng bằng hình thức gửi thư điện tử

1.2.2 Giao thức và ngơn ngữ sử dụng

- SMTP (Simple Mail Transfer Protocol): giao thức chuyển thư đơn giản SMTP là phương thức vận chuyển các thư điện tử từ máy chủ này sang máy chủ khác cho đến địa chỉ người nhận Các máy chủ sử dụng giao thức này để chuyển tiếp thư tới máy khách, và máy khách cũng sử dụng giao thức này gửi thư trung

Trang 19

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

chuyển qua các máy chủ Các thư điện tử được gửi đến các máy khách qua SMTP,

và các máy này sử dụng giao thức POP, IMAP để nhận thơng điệp này

Hình 1.2: Mơ hình gửi và nhận thư điện tử sử dụng giao thử SMTP

- IMAP (Internet Message Access Protocol) : giao thức nhận thơng điệp từ Internet của các máy khách Người dùng cĩ thể truy xuất và quản lý thư từ máy chủ Giao thức cho phép người sử dụng đọc, xĩa, sửa, tìm kiếm thư trong hịm thư mà khơng cần phải tải thư về Phiên bản mới nhất là IMAP4

Trang 20

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Hình 1.3: Mơ hình gửi và nhận thư điện tử dùng giao thức IMAP và POP

- POP (Post Office Protocol) : giao thức được dùng trên các máy trạm (MUA) tìm kiếm các thư điện tử từ một máy MTA (máy chủ mail) Giao thức này cho phép người dùng đăng nhập vào máy chủ mail với tài khoản đã đăng kí để tải thư từ máy chủ về máy cục bộ Phiên bản mới nhất là POP3

- Giao thức HTTP khơng phải là một giao thức dành cho thơng tin liên lạc email, nhưng nĩ cĩ thể được sử dụng để truy cập hộp thư của bạn Nĩ cũng cịn được gọi là thư điện tử dựa trên web, giao thức này cĩ thể được sử dụng để soạn hoặc truy lục email từ một tài khoản của bạn Hotmail là một ví dụ của việc sử dụng HTTP như là một giao thức thư điện tử

1.3 Các phần mềm lọc nội dung mail ở trong và ngồi nước

Hiện nay, một trong những khĩ khăn của người sử dụng thư điện tử là khơng thể mở email của họ vì vơ số các thư rác chất đầy trong hộp thư đến của họ Người

sử dụng cĩ thể dễ dàng nhận ra và phân biệt các thư rác,tuy nhiên để loại bỏ hết các thư rác bằng cách xĩa thủ cơng họ sẽ rất mất thời gian và cơng sức Hệ thống lọc thư rác ra đời giúp làm giảm tối thiểu cơng việc này đối với người sử dụng Phần mềm, tiện ích lọc thư rác cĩ thể làm giảm đáng kể số lượng thư rác gửi đến hộp thư của người dùng

Trang 21

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Hình 1.4: Phần mềm lọc nội dung mail

Hiện tại cĩ rất nhiều phần mềm lọc mail được cung cấp miễn phí, tuy nhiên tính năng cịn hạn chế và chủ yếu là lọc nội dung thư tiếng Anh Một số phần mềm lọc mail miễn phí:

- POPFile - Free Spam Filter

- Spamfence - Free Spam Filter

- Spamihilator - Free Spam Filter

- Spamato - Free Spam Filter

- SpamBayes - Free Spam Filter

- SpamExperts Desktop - Free Spam Filter

- K9 - Free Spam Filter

- Cactus Spam Filter - Free Spam Filter

- SpamRIP - Free Spam Filter

- BullGuard Spamfilter - Free Spam Filter

- …

Những tiêu chí để đánh giá một phần mềm lọc thư rác tốt:

Phần mềm lọc thư rác tốt nhất là cho phép dễ dàng tùy chỉnh bởi người dùng máy tính của tất cả các cấp Các tính năng quan trọng nhất của bất kỳ phần mềm bộ

Trang 22

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

lọc thư rác là khả năng đáng tin cậy ngăn chặn và ngăn chặn thư rác Những tiêu chí

sử dụng để đánh giá phần mềm lọc thư rác:

Chặn, lọc:

Đây là tiêu chí đầu tiên và quan trọng để đánh giá phần mềm lọc thư rác Phần mềm lọc thư rác nên được trang bị với nhiều khả năng ngăn chặn thư rác lây nhiễm vào hộp thư đến của người dùng Tốt nhất phần mềm lọc cĩ cả hai danh sách đen và trắng, thiết lập nhạy cảm, dựa vào cộng đồng lọc, kỹ thuật thách thức và phản ứng, và cách ly thiết lập Các tính năng bổ sung để đánh giá địa chỉ IP đang chặn, máy chủ, địa chỉ email, và mã quốc gia

Bảo vệ:

Ứng dụng chặn thư rác nên cĩ khả năng bảo vệ nhiều tài khoản người dùng với một cài đặt duy nhất Hơn nữa, chặn thư rác phải bảo vệ người dùng từ email cĩ chứa sâu, vi-rút, Trojans, phần đính kèm với nhúng keylogger và phần mềm độc hại khác Ngồi ra, phần mềm lọc thư rác mạnh mẽ cĩ thể xác định email HTML cĩ chứa cuộc tấn cơng lừa đảo trực tuyến nhằm mục đích thu thập thơng tin cá nhân nhạy cảm của người sử dụng

Quy tắc:

Phần mềm bộ lọc thư rác nên cung cấp cho người dùng khả năng để chỉnh sửa cài đặt được xác định trước các quy tắc cũng như tạo ra các quy định mới Phần mềm lọc thư rác tốt phải cĩ khảu năng thích ứng với nhu cầu của người sử dụng

Khả năng tương thích:

Khi lựa chọn một phần mềm chặn thư rác, cần phải đánh giá nếu phần mềm lọc thư rác đĩ cĩ tương thích với của chương trình đọc thư của người sử dụng hiện tại hay khơng Người sửcác chương trình duyệt email phổ biến bao gồm Thunderbird, Outlook, Outlook Express và các ứng dụng khác của POP3/SMPT Phần mềm lọc thư rác cũng nên hỗ trợ một số các nhà cung cấp dịch vụ webmail như Gmail, Yahoo, Hotmail và những nhà cung cấp dịch vụ khác

Do các thuật tốn lọc thư thơng dụng mới chỉ được nghiên cứu và thử nghiệm cho tiếng Anh, để cĩ thể sử dụng giải pháp lọc nội dung cho thư tiếng Việt

Trang 23

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

cần nghiên cứu làm rõ hiệu quả của thuật tốn khi phân tích nội dung thƣ viết bằng tiếng Việt Bên cạnh đĩ cần thực hiện những cải tiến cho phù hợp khi chuyển từ phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt Để giải quyết những vấn đề vừa nêu, trong phạm vi đề tài này, chúng tơi tiến hành nghiên cứu một số giải pháp lọc nội dung cho thƣ rác tiếng Việt và tiếng Anh Nội dung nghiên cứu bao gồm thử nghiệm làm rõ khả năng lọc thƣ tiếng Việt, đề xuất và phân tích so sánh các cải tiến với thuật tốn, thử nghiệm trên dữ liệu thực Sau khi thử nghiệm so sánh, giải pháp lọc thƣ cĩ hiệu quả cao sẽ đƣợc cài đặt trong một bộ lọc thƣ cĩ khả năng tích hợp vào máy chủ thƣ điện tử

Trang 24

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Chương 2: CÁC PHƯƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM

Trình bày kỹ thuật gửi mail nặc danh, mơ hình và nguyên lý hoạt động của

hệ thống lọc nội dung mail, Các kỹ thuật lọc nội dung thơng tin qua mail

2.1 Các kỹ thuật gửi mail nặc danh và Bomb Mail

Để phát tán thư rác, những người gửi thư rác phải cĩ được những điều kiện sau: một là cĩ danh sách địa chỉ email nhận thư, hai là cĩ các server cho phép gửi thư, ba là phải soạn được nội dung thư theo yêu cầu quảng cáo và qua mặt được các

bộ lọc nội dung, cuối cùng cần cĩ những chương trình để gửi thư đi

2.1.1 Thu thập địa chỉ email

Để gửi thư rác đi, người gửi thư rác cần phải cĩ một danh sách các địa chỉ email cần gửi Danh sách địa chỉ email này cĩ thể thu thập được từ nhiều nguồn khác nhau, họ cĩ thể mua từ các trang web thương mại cĩ nhiều thành viên đăng ký hoặc sử dụng các kỹ thuật dưới đây để cĩ được địa chỉ email của đối tượng cần gửi thư

Người gửi thư rác (hoặc đối tác của họ) thường tung ra các trang web giả để bẫy người dùng gửi địa chỉ email cho họ Kỹ thuật này được gọi là Phishing email

Trang 25

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng

Người gửi thư rác cịn sử dụng các máy tìm kiếm chỉ để tìm kiếm địa chỉ email trên các trang web Các máy tìm kiếm này sẽ tìm kiếm những trang cĩ kí hiệu

“@” và sẽ tách địa chỉ email từ đĩ ra Những chương trình tìm kiếm email theo kiểu như vậy cịn được gọi là spambots

Danh sách các địa chỉ cũng cĩ thể được sinh tự động theo một cơ chế nào đĩ

để xác suất tồn tại của địa chỉ sinh tự động cĩ thể chấp nhận được Địa chỉ email thường được tạo ra nhờ kết hợp giữa các họ tên phổ biến với các domain nhiều người dùng và các con số cĩ nghĩa Ví dụ như địa chỉ email được sinh như sau:

Từ địa chỉ gốc là: nguyenvannam + @ + fpt.com.vn

Cĩ thể sinh ra các địa chỉ sau:

nguyenvannam1@fpt.com.vn, nguyenvannam2@fpt.com.vn,

nguyenvannam1982@fpt.com.vn, nguyenvannam1983@fpt.com.vn,

Để xác định một địa chỉ email cĩ tồn tại hay khơng, những người gửi thư rác

sẽ gửi một bức thư tới tất cả các hịm thư trong danh sách sinh tự động Nếu hịm thư đĩ tồn tại và chủ nhân của nĩ mở bức thư đĩ ra thì sẽ cĩ một chương trình được

Trang 26

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

kích hoạt thơng báo về sự tồn tại của địa chỉ cho người gửi thư rác Cách này cịn gọi là sinh địa chỉ email theo kiểu từ điển

Một số nguồn thu thập địa chỉ email của những kẻ phát tán thư rác

a Thu thập thơng tin qua Website:

Khi khách hàng hay người sử dụng truy cập vào một trang web được yêu cầu đăng ký tài khoản và khai báo các thơng tin cá nhân thì ngay lập tức các thơng tin cá nhân của người sử dụng (bao gồm cả địa chỉ email) sẽ được thu thập và ghi nhận vào cơ sở dữ liệu của Website và họ sẽ sử dụng các thơng tin cá nhân này cho các chiến dịch quảng cáo, tiếp thị trên Website của họ

Ngồi thơng tin về địa chỉ email thì các website này cịn thu thập thêm các thơng tin khác về khách hàng như:

- Thơng tin liên lạc

- Khách hàng biết được bạn qua đâu (quảng cáo, báo, cơng cụ tìm kiếm,…)

- Thơng tin giới tính, tuổi

- Lịch sử mua hàng (đã từng mua, chưa mua,…)

- Quy mơ cơng ty khách hàng

- Các dịch vụ khách hàng muốn nhận thơng tin (mà bạn cung cấp)

Tại sao họ lại cần những thơng tin này? Vì chúng giúp họ phân nhĩm danh

sách khách hàng để cĩ thể gửi những chiến dịch Email Marketing riêng tới từng

nhĩm cụ thể Đây là một phần trong các nguồn thu thập địa chỉ email của các kẻ phát tán thư rác

b.Thu thập từ mạng lưới quan hệ

Ngồi cách thu thập thơng tin trực tiếp từ các thơng tin đăng ký của khách hàng trên Website các spamer cịn tích cực tham gia trao đổi các thơng tin này với nhau thơng qua mạng lưới các quan hệ quen biết của họ từ đĩ làm cho danh sách địa chỉ email của khách hàng trong tay các spamer ngày càng dài thêm

c Tích hợp thêm form đăng ký:

Các kẻ phát tán thư rác cũng cĩ thể sử dụng các cách thức khác để thu thập thơng tin cá nhân và địa chỉ email của mọi người như tạo ra các phiếu khảo sát với

Trang 27

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

hứa hẹn phần thưởng hấp dẫn và yêu cầu người sử dụng đăng ký các thơng tin cá nhân chính xác để cĩ thể nhận giải thưởng (thường là khơng cĩ ai trúng thưởng), hoặc lồng vào trong các bản khảo sát sự hài lịng của khách hàng, trong form “vận chuyển” hàng hĩa khi khách hàng mua sản phẩm từ website, trong form “mua hàng” khi khách hàng mua sản phẩm từ website, trong các email xác nhận hay giao dịch, trong chứng nhận thanh tốn trực tuyến,…

d Cung cấp các bản báo cáo miễn phí, các tin tức hữu ích hoặc các phần mềm miễn phí

Các spamer cịn thu thập thơng tin cá nhân bằng cách yêu cầu khách ghé thăm điền thơng tin khi muốn download hay được tặng một sản phẩm miễn phí Đây

là một cách thường được dùng nhất khơng chỉ trên internet

e Nguồn địa chỉ từ các đơn vị “Mơi giới” danh sách:

Các nhà mơi giới thường là các cơng ty marketing thu thập và bán các thơng tin về khách hàng Các spamer sẽ mua các danh sách thơng tin này để sử dụng trong việc phát tán thư rác

2.1.2 Tìm kiếm các máy tính trên Internet cho phép gửi thư

Muốn gửi được thư rác, người gửi thư rác cần cĩ trong tay một danh sách các server để gửi thư đi Các server này cĩ thể là những server chuyên để gửi thư rác do người gửi thư rác sở hữu hoặc thuê, hoặc là những server bị người gửi thư rác lợi dụng

Hình ảnh sau đây là trang quảng cáo của một số cơng ty chuyên tung thư rác được Google liệt kê khi tìm kiếm hai từ “bulk mail”:

Hình 2.2: Một số website của các cơng ty gửi thư rác

Trang 28

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Người gửi thư rác thường khai thác lỗ hổng của những server cho phép chuyển tiếp thư (open relay) hoặc những proxy mở cho phép gửi thư (open proxy)

Hình 2.3: Minh họa cách gửi thư rác qua mail server (open relay)

Trên mạng Internet thường cĩ rất nhiều mail server cho phép chuyển tiếp thư Người gửi thư rác hay sử dụng các server này để chuyển tiếp thư rác vì khi đĩ

họ sẽ khĩ bị phát hiện hơn và chuyển được các gánh nặng về đường truyền sang cho các server đĩ Tuy nhiên những mail server dạng này thường sớm bị đưa vào danh sách đen (danh sách những địa chỉ IP bị chặn) của các bộ lọc thư rác và khơng thể tiếp tục gửi thư rác được nữa

Một loại server khác là các proxy cho phép gửi thư cũng được người gửi thư rác đặc biệt yêu thích Mục đích của những proxy này là giúp các trang web vượt qua được tường lửa (firewall) Một số proxy cho phép gửi thư và bất cứ ai cũng cĩ thể truy cập được Người gửi thư rác lợi dụng điểm này để phát tán thư rác Khi sử dụng những proxy này, Người gửi thư rác hầu như khơng bị phát hiện Mặt khác, việc lợi dụng này thường được lâu dài vì những người quản lý proxy khơng quan tâm tới việc proxy cĩ bị liệt kê trong danh sách đen của các bộ lọc hay khơng (vì mục đích chính của proxy khơng phải để gửi thư)

Open Mail Relay

Mạng trung gian

người dùng cục bộ

Gửi thư rác ISP Nhận thư rác

Trang 29

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Ngồi hai cách trên, những người gửi thư rác cịn thuê các máy tính “ma” để gửi thư rác Vì đây là các máy tính khơng được quản lý nên khĩ cĩ thể pháp hiện ra tác giả của các bức thư rác Thêm nữa việc thuê các máy tính này lại khá rẻ nên cĩ tới 40%-60% người gửi thư rác bắt đầu từ chiêu thức này

Khơng chỉ dừng lại ở việc đi thuê máy tính ma, những người gửi thư rác (và cũng là những hacker) cịn chiếm quyền kiểm sốt các máy tính hợp pháp để gửi thư rác Vào đầu năm 2005, Microsoft đã tiến hành khảo sát thử một máy tính bị nhiễm mã độc và đã bị hacker nắm quyền điều khiển từ xa, tức máy tính này đã trở thành một máy tính ma Kết quả khảo nghiệm cho thấy rằng chỉ trong vịng 20 ngày, máy tính ma này đã nhận được 5 triệu yêu cầu kết nối từ những người thư rác

và chính nĩ cũng đã gửi tới 18 triệu thư rác Trong những ngày cao điểm nhất, máy tính ma này đã nhận được đến 470.000 yêu cầu kết nối và khoảng 1,8 triệu thư rác

đã từ nĩ gửi đi

2.1.3 Boml Mail

Thư điện tử bị ném bom vì nhận được một lượng cực lớn các thư gửi đến

bằng cách sử dụng "zombie" trong mạng botnet(mạng lưới phân cấp các máy tính

bị tổn hại bởi phần mềm độc hại và dưới sự kiểm sốt của kẻ tấn cơng) Tương tự

như cách thức sử dụng trong gửi thư rác, nhưng những kẻ tấn cơng chỉ thị botnet này để gửi hàng triệu hoặc thậm chí hàng tỷ email, nhưng khơng giống như bình thường botnet gửi thư rác, các email được tất cả gửi đến chỉ một hoặc một vài địa chỉ mà kẻ tấn cơng mong muốn

Đây là loại tấn cơng là rất khĩ khăn để bảo vệ chống lại bởi vì các địa chỉ gửi

từ nhiều nguồn khác nhau và khả năng của mỗi máy tính zombie gửi một thơng điệp khác nhau hoặc sử dụng các kỹ thuật tàng hình để đánh bại bộ lọc thư rác

2.1.3.1 Xử lý khi bị bom thư

Xác định nguồn gốc của các bom thư điện tử/thư rác và cấu hình router của bạn (hoặc cĩ nhà cung cấp dịch vụ mạng của bạn cấu hình các bộ định tuyến) để ngăn chặn các gĩi tin đến từ địa chỉ đĩ

Trang 30

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Xem lại tiêu đề thư điện tử để xác định nguồn gốc thực sự của email Xem xét các thơng tin liên quan đến các bom thư điện tử/thư rác sau

cĩ liên quan tới chính sách và thủ tục của tổ chức của bạn

Thực hiện liên lạc với trang web xác định đã đăng các bình luận của bạn nhằm cảnh báo họ hoạt động

Đảm bảo cập nhật phiên bản mới nhất của phần mềm gửi thư điện tử của bạn và làm tăng khả năng ghi nhật ký là cần thiết để phát hiện hoặc cảnh báo bạn về các hoạt động

2.1.3.2 Cơng tác phịng chống bom thư

Thật khơng may, tại thời điểm này, khơng cĩ khơng cĩ cách nào để ngăn chặn bom thư hoặc gửi thư rác thực sự hiệu quả khác hơn là ngắt kết nối từ Internet,

và nĩ cũng khơng thể dự đốn nguồn gốc của các cuộc tấn cơng tiếp theo Vì thế cơng tác phịng chống là rất quan trọng, hãy lưu ý thực hiện các biện pháp dưới đây

để giảm thiểu tác hại của thư rác:

Phát triển các cơng cụ để giúp bạn nhận ra và trả lời bom thư và thư rác và do đĩ giảm thiểu tác động của các hoạt động đĩ Các cơng cụ nên tăng khả năng đăng nhập cũng như kiểm tra và thơng báo cho bạn

để nhận biết tin nhắn đến/gửi đi cĩ nguồn gốc từ cùng một người dùng hoặc các trang web tương tự trong một khoảng thời gian rất ngắn Một khi bạn xác định các hoạt động, bạn cĩ thể sử dụng các cơng cụ để loại bỏ các thư từ người dùng vi phạm hoặc các trang web Nếu trang web của bạn sử dụng một số lượng nhỏ tài nguyên của máy chủ thư điện tử, bạn cĩ thể cấu hình tường lửa của máy chủ để đảm bảo rằng kết nối SMTP từ bên ngồi tường lửa của bạn cĩ thể được giám sát bởi máy chủ thư điện tử của bạn Mặc dù điều này sẽ khơng ngăn chặn một cuộc tấn cơng, nhưng nĩ giảm thiểu số máy cĩ sẵn cho

kẻ xâm nhập tấn cơng dựa trên SMTP (cho dù cuộc tấn cơng đĩ là

Trang 31

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

một thư rác thư điện tử hoặc một nỗ lực để đột nhập vào một máy chủ)

Xem xét cấu hình máy chủ mail của bạn để cung cấp thư điện tử vào

hệ thống tập tin cĩ dung lượng giới hạn cho mỗi người dùng được kích hoạt

Giáo dục người dùng của bạn để gọi cho bạn về bom thư và gửi thư rác

Khơng phổ biến vấn đề bằng cách chuyển tiếp (hoặc trả lời) spammed thư điện tử

2.2 Mơ hình và nguyên lý hoạt động của hệ thống lọc nội dung Mail

2.2.1 Mơ hình hệ thống lọc mail

Một trong những bước quan trọng khi xây dựng hệ thống lọc thư rác là quyết định vị trí của hệ thống trong cả chu trình trao đổi thư điện tử Việc xác định vị trí của bộ lọc thư cĩ ảnh hưởng tới kiến trúc bộ lọc, các yêu cầu về tái huấn luyện, tốc

BỘ LỌC

MAIL SERVER THƯ MỚI

(a)

Trang 32

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Hình 2.4: Các phương án bộ trí hệ thống lọc thư

Theo cách bố trí trên hình 2.4, bộ lọc thư được tích hợp vào chương trình nhận thư điện tử (mail client) như Outlook Express và chạy trên máy khách (client) của người sử dụng Cách bố trí này thuận tiện cho việc xây dựng bộ lọc thư được cá nhân hố, cĩ thể phân biệt thư rác – thư thường theo tiêu chí đánh giá riêng của từng người sử dụng thư điện tử Ngồi ra, do chạy trên máy khách nên bộ lọc thư khơng gây quá tải đối với máy chủ thư điện tử Tuy nhiên, mục tiêu của đề tài là xây dựng bộ lọc cho phía client nên chúng tơi khơng trình bầy về phương án này trong các phần sau của báo cáoi

Trên hình 2.4 là cách bố trí bộ lọc thư dưới dạng một proxy Bộ lọc thư sẽ đĩng vai trị trạm trung chuyển thư bằng cách nhận các gĩi tin được gửi theo thức thư điện tử vào các cổng dành cho thư Bộ lọc cĩ thể chạy trên máy chủ hoặc máy khách nhưng thường bộ lọc thư như vậy được cài đặt chạy trên máy khách Cách cấu hình này cĩ ưu điểm là mềm dẻo, cĩ thể kết hợp nhiều bộ lọc khác nhau bằng nếu gắn đầu ra của bộ này với đầu vào của bộ khác và trên thực tế cĩ một số chương trình lọc thư rác sử dụng phương án bố trí này Tuy nhiên, việc sử dụng kết hợp bộ lọc thư với những chương trình proxy khác (như trình chống virus) thường gây mâu thuẫn khi cài đặt và địi hỏi người sử dụng phải cĩ những hiểu biết nhất định

Hệ thống do chúng tơi xây dựng sử dụng phương án bố trí như minh hoạ trên hình 2.4abộ lọc thư được tích hợp với phần mềm duyệt mail ở máy client, nĩ làm nhiệm vụ kiểm tra các thư mới gửi đến và sau đĩ phân loại, đánh dấu nếu thư gửi

MAIL SERVER

BỘ LỌC

MAIL CLIENT

THƯ MỚI

PHẢN HỒI

(c)

Trang 33

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

đến cĩ các đặc điểm trung với nhận diện của thư rác mà phần mềm đã được huấn luyện và thiết lập

Hệ thống được xây dựng để cĩ thể tích hợp với trình duyệt mail Outlook Đây là phần mềm duyệt thư điện tử offline khá thơng dụng tại Việt nam và cung cấp giao diện lập trình thích hợp cho việc kết nối với hệ thống lọc thư

2.2.2 Kiến trúc tổng quan của hệ thống lọc mail

Phần quan trọng nhất của hệ thống bao gồm module huấn luyện và module lọc Hai mơđun này kết hợp chặt chẽ với nhau, đầu ra của mơđun huấn luyện là các tham số tính tốn được trong thời gian huấn luyện (các xác suất điều kiện đối với học Bayes đơn giản) và được lưu trong K.Base Mơđun lọc thư sẽ đọc tham số từ K.Base và sử dụng để phân loại thư mới nhận được Việc tách riêng mơđun huấn luyện khỏi mơđun phân loại làm tăng độ mềm dẻo khi cài đặt và sử dụng hệ thống

Về nguyên tắc, cĩ thể tách riêng mơđun huấn luyện và chạy trên máy khơng cĩ mail server để giảm tải cho máy chủ

Trang 34

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Giao diện

với mail

server

Bộ giao tiếp với Exchange server thơng qua dịch vụ SMTP

Mail server

Hình 2.5: Kiến trúc chung của hệ thống lọc thư

Với kiến trúc thể hiện trên hình 2.5, luồng dữ liệu luân chuyển giữa các thành phần bộ lọc được mơ tả như sau:

Khi một bức thư được gửi đến Mail server exchange, nhờ chứa năng bẫy sự kiện Incoming mail của SMTP thì bức thư đĩ được đưa đến Bộ phân loại Tiếng Anh, tiếng Việt hoặc đưa thẳng đến Bộ phân loại thư rác (phụ thuộc vào tùy chọn của người dùng)

K Base

Bộ phân loại thư tiếng Anh, tiếng Việt

Bộ phân loại thư rác

Dịch vụ SMTP

Exchange Server

Giao diện đăng kí với dịch vụ

SMTP

Trang 35

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Giả sử sau khi đưa vào bộ phân loại Tiếng Anh, tiếng Việt, bức thư được chuyển cho bộ phân loại thư rác Tại đây, nhờ quá trình tính tốn theo Naive Bayes,

nĩ sẽ được gán nhãn là thư rác [Possible Spam] hoặc khơng gán nhãn nếu được xác định là thư thường Sau đĩ, thư được gửi đến Exchange server nhờ dịch vụ SMTP Cuối cùng, bức thư đã sẵn sàng cho Mail Client lấy về qua giao thức POP3

2.2.3 Các kỹ thuật lọc nội dung thơng tin qua mail

Phương pháp lọc nội dung để phân loại thư rác đã và đang được quan tâm, nghiên cứu và ứng dụng nhiều nhất Đặc điểm chung của phương pháp này là dựa vào nội dung và chủ đề bức thư để phân biệt thư rác và thư hợp pháp Dưới đây là các phương pháp lọc nội dung thơng dụng

2.2.3.1 Lọc thư rác dựa vào các dấu hiệu nhận biết

Đầu tiên, người ta tạo ra các địa chỉ email để bẫy thư rác, gọi là các honeypots Các địa chỉ này được tạo ra một cách cố ý sao cho khơng bao giờ thư bình thường được gửi tới Do đĩ, nếu cĩ thư gửi vào các địa chỉ bẫy thì ta cĩ thể chắc chắn đĩ là thư rác

Sau đĩ hệ thống sẽ so sánh thư mới đến với thư đã bẫy được Cách thức so sánh là dựa trên dấu hiệu nhận biết Nếu hai bức thư cĩ các dấu hiện giống nhau thì bức thư mới tới là thư rác

Phương pháp thường dùng để so sánh hai bức thư như trên là gán cho mỗi ký

tự một số nào đĩ, tiếp theo cộng dồn các số đã gán lại với nhau Hai bức thư sẽ được coi là giống nhau nếu cĩ tổng các số đã gán bằng nhau

Ưu điểm của phương pháp lọc thư này là đơn giản, nhanh và khơng lọc nhầm thư thường thành thư rác Tuy nhiên, những người gửi thư rác lại dễ dàng đánh bại

hệ thống này bằng cách sinh ngẫu nhiên các mẩu thư rác sau đĩ gộp lại thành một bức thư hồn chỉnh Khi đĩ các “dấu hiệu“ của các bức thư được gửi sẽ khác nhau

và thư rác sẽ lọt qua được hệ thống lọc Bởi vậy tỉ lệ lọc thư rác của hệ thống này khơng bao giờ vượt ngưỡng 70%

Trang 36

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Do khả năng lọc thư chính xác (khơng chặn nhầm thư hợp pháp) và dễ triển khai nên hệ thống này thường được dùng để lọc thư tại phía server

2.2.3.2 Lọc thư rác thơng qua bỏ phiếu trên các danh sách trắng

Hoạt động của bộ lọc dạng này là tìm xem các từ ở trong danh sách đen/trắng

cĩ nằm trong bức thư mới tới hay khơng và đếm số lần xuất hiện của chúng Nếu số lượng từ thuộc danh sách trắng nhiều hơn (rất nhiều) số từ đếm được thuộc danh sách đen thì bức thư đĩ là thư hợp pháp, ngược lại sẽ là thư rác

Các đặc trưng của bộ lọc:

Khơng cĩ biến đổi dữ liệu ban đầu Dữ liệu ra giống như dữ liệu vào

Biểu thức chính quy để tách từ ra khỏi thư là: [[:graph:]]+

Việc chọn đặc trưng chỉ đơn giản là các từ đơn

Cơ sở dữ liệu về đặc trưng chỉ được nạp khi các từ nằm trong danh sách đen hoặc danh sách trắng, nếu là nằm trong dánh sách trắng thì đặt là +1, nếu thuộc danh sách đen sẽ đặt là -1, tất cả các trường hợp khác đặt giá trị 0.0

Luật tổ hợp là “Điểm mới = Điểm cũ + trọng số của đặc trưng”

Ngưỡng lọc cuối cùng là: “Nếu điểm mới > 0 thì là thư hợp pháp”, “Nếu điểm mới < 0 thì là thư rác” Khơng khẳng định trong các trường hợp khác

Như vậy bộ lọc thực hiện chấm điểm các từ trong danh sách đen và các từ trong danh sách trắng bằng nhau Một số cải biên của bộ lọc này là đánh trọng số cho các từ trong danh sách đen cao hơn trong danh sách trắng và ngược lại

2.2.3.3 Lọc thư sử dụng phương pháp heuristic

Cách thức hoạt động của phương pháp này là con người sẽ xác định những đặc trưng (từ ngữ) nào là của thư rác, đặc trưng nào là của thư hợp pháp, sau đĩ viết chương trình để phát hiện những đặc trưng đĩ trong bức thư gửi tới

Người ta đánh trọng số cho các đặc trưng trên (cĩ thể thực hiện bằng tay hoặc sử dụng thuật tốn) và lập một ngưỡng để phân loại thư Bức thư sẽ được coi

là thư rác nếu cĩ các đặc trưng với trọng số vượt ngưỡng quy định

Trang 37

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Hiệu suất chặn thư rác của các chương trình sử dụng phương pháp này rất khác nhau Vì mỗi chương trình sử dụng các luật lọc khác nhau Luật đơn giản nhất

là nếu bức thư nào chứa các đặc trưng của thư rác thì đĩ là thư rác Điều này sẽ làm cho bộ lọc chặn mất rất nhiều thư hợp pháp

Một số chương trình lọc thư theo phương pháp này như hệ thống chấm điểm cho email sử dụng phương pháp hueristic (Heuristic Message Scoring System) của mail server MDaemon Hệ thống chấm điểm email này đúc kết trên kinh nghiệm là việc kiểm tra, lọc email sử dụng một số lượng lớn các luật theo trật tự để máy tính chấm điểm Điểm số này sẽ được sử dụng để quyết định một email cĩ phái là spam email hay khơng Ngồi cịn một số các bộ lọc thư rác khác như SpamAssassin, hoặc SpamGuard của Yahoo

Phương pháp này cĩ ưu điểm là dễ cài đặt và hiệu suất chặn thư rác khá cao (nếu xây dựng được các luật tốt) khoảng 90-95% Nhược điểm chính của phương pháp này là tỉ lệ chặn nhầm thư hợp pháp cũng rất lớn (khoảng 0.5%) Ngồi ra phương pháp này cũng khơng linh hoạt vì các luật được xây dựng luơn luơn chậm hơn rất nhiều so với sự biến đổi của từ ngữ trong thư rác

Người ta thường sử dụng phương pháp này cho các bộ lọc thư ở mail server

2.2.3.4 Lọc thư sử dụng phương pháp xác suất thống kê và học máy

Phương thức hoạt động của phương pháp này là, đầu tiên con người sẽ phân loại các bức thư đã cĩ thành hai tập hợp, thư rác và thư hợp pháp Một thuật tốn được sử dụng để trích chọn và đánh trọng số cho các đặc trưng của thư rác theo một cách nào đĩ (thường sử dụng cơng thức xác suất) Sau khi trích trọn đặc trưng, hai tập thư rác và thư hợp pháp sẽ được sử dụng để huấn luyện một bộ phân loại tự động Quá trình huấn luyện dựa trên một phương pháp học máy

Khi một bức thư mới tới nĩ sẽ được tách thành các đặc trưng (từ hoặc cụm từ) rồi được so sánh với các đặc trưng đã cĩ để tìm ra trọng số Từ tổ hợp trọng số của các đặc trưng sẽ đánh giá được bức thư đĩ cĩ phải là thư rác hay khơng bằng

Trang 38

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

cách so sánh với một ngưỡng do người dùng định ra Cách tổ hợp đặc trưng và phân loại thư rác cĩ thể khác nhau và phụ thuộc vào thuật tốn phân loại cụ thể

Hình 2.6: Mơ hình tổng quát lọc thư rác Tiếng Việt

Tỉ lệ chặn thư rác của bộ lọc sử dụng phương pháp này rất cao, khoảng 99% Chương trình SpamProbe cĩ thể đạt tỉ lệ lọc thư rác tới 99.9% Các phương pháp học máy và xác suất thống kê cho phép phân loại cả những thư rác chưa từng xuất hiện trước đĩ (chưa cĩ trong dữ liệu huấn luyện)

Một ưu điểm khác nữa của phương pháp này là tỉ lệ chặn thư hợp pháp rất thấp, thấp hơn rất nhiều so với phương pháp heuristic

Nhược điểm của của phương pháp học máy là phải cĩ một tập hợp các thư để huấn luyện Hiệu suất của bộ lọc sẽ phụ thuộc rất nhiều vào tập huấn luyện ban đầu

đĩ Tập dữ liệu càng lớn và càng chứa nhiều dạng thư khác nhau sẽ cho độ chính xác phân loại càng cao về sau

Hiện nay, phương pháp lọc thư sử dụng học máy và xác suất thống kê được coi là một phương pháp triển vọng với nhiều ứng dụng thương mại như tại Hotmail, Google, Yahoo Phương pháp này sẽ được nghiên cứu chi tiết và trình bày trong các chương tiếp theo

Trang 39

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

2.2.4 Kỹ thuật lọc Spam

Spam gây ra rất nhiều tác hại, do vậy việc phịng chống và ngăn chặn các spam là cần thiết Hiện cĩ nhiều cơng ty phần mềm cung cấp giải pháp chống spam, mỗi dịng sản phẩm cĩ những tính năng và các ưu nhược điểm riêng, nhưng hầu hết các sản phẩm đĩ đều hoạt động dựa vào một số nguyên lý sau:

2.2.4.1 Sử dụng DNS blacklist:

Phương pháp sử dụng DNS black list sẽ chặn các email đến từ các địa chỉ nằm trong danh sách DNS blacklist Cĩ hai loại danh sách DNS Blacklist thường được sử dụng, đĩ là:

Danh sách các miền gửi spam đã biết, danh sách các miền này được liệt kê

và cập nhật tại địa chỉ http://spamhaus.org/sbl

Danh sách các máy chủ email cho phép hoặc bị lợi dụng thực hiện việc chuyển tiếp spam được gửi đi từ spammer Danh sách này được liệt kê và cập nhật thường xuyên tại địa chỉ http://www.ordb.org Cơ sở dữ liệu Open Relay Database này được duy trì bởi ORDB.org là một tổ chức phi lợi nhuận

Khi một email được gửi đi, nĩ sẽ đi qua một số SMTP server trước khi chuyển tới địa chỉ người nhận Địa chỉ IP của các SMTP server mà email đĩ đã chuyển qua được ghi trong phần header của email Các chương trình chống spam sẽ kiểm tra tất cả các địa chỉ IP đã được tìm thấy trong phần header của email đĩ sau

đĩ so sánh với cơ sở dữ liệu DNS Blacklist đã biết Nếu địa chỉ IP tìm thấy trong phần này cĩ trong cơ sở dữ liệu về các DNS Blacklist, nĩ sẽ bị coi là spam, cịn nếu khơng, email đĩ sẽ được coi là một email hợp lệ

Các DNSBL đầu tiên là Blackhole List thời gian thực (RBL), được tạo ra vào năm 1997, ban đầu nĩ được coi như một nguồn cấp dữ liệu BGP bởi Paul Vixie , và sau đĩ là một hệ thống DNSBL xây dựng bởi Eric Ziegast như một phần của hệ thống phịng chống lạm dụng thư (MAPS), Dave Rand tại AboveNet là thuê bao đầu tiên của nĩ Phiên bản đầu tiên của RBL khơng được cơng bố như một DNSBL,

mà là một danh sách các mạng truyền qua BGP để định tuyến và các nhà khai thác

Trang 40

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

mạng cĩ thể cho phép tất cả các máy sử dụng giao thức TCP/IP để gửi thư Người phát minh ra kỹ thuật này sau đĩ thường được gọi là DNSBL là Eric Ziegast

Thuật ngữ "hố đen" đề cập đến một lỗ đen kết nối mạng, một biểu hiện cho một liên kết trên một mạng lưới mà nĩ giảm lưu lượng truy cập thay vì chuyển tiếp như bình thường Mục đích của RBL là các trang web sử dụng nĩ sẽ từ chối lưu lượng truy cập từ các trang web cĩ hỗ trợ thư rác - cho dù bằng cách chủ động gửi thư rác, hoặc bằng cách khác.Trước khi một địa chỉ sẽ được liệt kê trên các RBL, tình nguyện viên và nhân viên MAPS sẽ cố gắng nhiều lần để liên lạc với người quản lý trang web đĩ và thơng báo các vấn đề của nĩ cần sửa chữa Nỗ lực như vậy được coi là rất quan trọng trước khi blackholing tất cả các lưu lượng mạng, nhưng

nĩ cũng cĩ nghĩa là các spamer và các ISP hỗ trợ thư rác cĩ thể trì hỗn được đặt trên RBL trong thời gian dài trong khi chờ các cuộc thảo luận như vậy

Sau đĩ, RBL cũng được đăng tải trong một danh sách DNSBL và Paul Vixie khuyến khích các hệ thống email để thực hiện hỗ trợ RBL Danh sách các phần mềm mail được phép truy vấn các RBL và trang web bị từ chối truy cập được liệt kê trên một cơ sở dữ liệu cho mỗi máy chủ email thay vì blackholing tất cả lưu lượng truy cập

Ngay sau khi sự ra đời của RBL, rất nhiều tổ chức khác bắt đầu phát triển danh sách của mình với các chính sách khác nhau

Năm 2003, một số DNSBLs bị tấn cơng từ chối dịch vụ, khơng cĩ tổ chức hay cá nhân nào đứng ra chịu trách nhiệm về các vụ tấn cơng này Tuy nhiên, nhiều nhà quan sát tin rằng các cuộc tấn cơng được gây ra bởi kẻ gửi thư rác

Phương pháp này cĩ ưu điểm là các email cĩ thể được kiểm tra trước khi tải xuống, do đĩ tiết kiệm được băng thơng đường truyền Nhược điểm của phương pháp này là khơng phát hiện ra được những email giả mạo địa chỉ người gửi

2.2.4.2 Sử dụng SURBL list

Phương pháp sử dụng SURBL phát hiện spam dựa vào nội dung của email Chương trình chống spam sẽ phân tích nội dung của email xem bên trong nĩ cĩ

Ngày đăng: 19/11/2014, 19:31

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Vũ Đình Cường, Từng bước khám phá an ninh mạng. Thư rác - phương pháp phát tán và cách phòng chống, Nhà xuất bản Lao động - Xã hội năm 2009 Sách, tạp chí
Tiêu đề: Từng bước khám phá an ninh mạng. Thư rác - phương pháp phát tán và cách phòng chống
Nhà XB: Nhà xuất bản Lao động - Xã hội năm 2009
[3] Phùng Chí Tuệ. Bảo mật Email và cách phòng chống spam. 2009 Sách, tạp chí
Tiêu đề: Bảo mật Email và cách phòng chống spam
[5] Virus Email phương thức hoạt động và cách phòng chống, Nhà xuất bản Từ điển Bách Khoa, Minh Tâm biên soạn Sách, tạp chí
Tiêu đề: Virus Email phương thức hoạt động và cách phòng chống
Nhà XB: Nhà xuất bản Từ điển Bách Khoa
[11] Chen, C, Lee, H. &amp; Hwang, C (2005). A Hierarchical Neural Network Document Classifier with Linguistic Featura Selection, Applied Intelligence, 23, pp. 277-294 Sách, tạp chí
Tiêu đề: Applied Intelligence, 23
Tác giả: Chen, C, Lee, H. &amp; Hwang, C
Năm: 2005
[12] R Du, W Surilo, F Safaei and P Boustead (2003); Protecting an MPLS - based Programmable Virtural Network using Distributed Fire wall, Technicel Report, University of Wollongong, http://atnac2003.atcre.com/POSTERS/Du.pdf Sách, tạp chí
Tiêu đề: Technicel Report
[13] Terry Kuny, Filtering Internet Contents: PICS, Labels and Filters, March 23, 1998 Sách, tạp chí
Tiêu đề: Filtering Internet Contents: PICS, Labels and Filters
[14] Jeff Heaton, Programming Spiders Bots and Aggretaors in Java, NXB Sybex, 2002 Sách, tạp chí
Tiêu đề: Programming Spiders Bots and Aggretaors in Java
Nhà XB: NXB Sybex
[15] Cancedda, N., Gaussier, E., Goutte, C. &amp; Renders, J.M. Word sequence kernels. Journal of Machine Learning Research, 3, pp. 1059-1082, 2003 Sách, tạp chí
Tiêu đề: Word sequence kernels. Journal of Machine Learning Research, 3
[2] Phạm Tuấn Liêm, Virus &amp; Spam - Những điều cần biết Khác
[4] Các tài liệu về bảo mật Email và cách phòng chống spam trên mạng Internet Khác
[6] help.outlook.com/vi-vn [7] www.hoangvi.com [8] www.vinaren.vn [9] www.pcworld.com.vn Tiếng Anh Khác
[10] Chakrabarti, S (2003), Mining the Web; Discovering Knowiedge from Hypertext Data, Morgan Kaufmann, 2003 Khác
[16] Greenfield P, Rickwood P and Tran HC, Effectiveness of Internet Filtering Software Products, CSIRO, September 2001 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Mô hình lưu chuyển thư điện tử qua Internet - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 1.1 Mô hình lưu chuyển thư điện tử qua Internet (Trang 16)
Hình 1.2: Mô hình gửi và nhận thư điện tử sử dụng giao thử SMTP - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 1.2 Mô hình gửi và nhận thư điện tử sử dụng giao thử SMTP (Trang 19)
Hình 1.3: Mô hình gửi và nhận thư điện tử dùng giao thức IMAP và POP - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 1.3 Mô hình gửi và nhận thư điện tử dùng giao thức IMAP và POP (Trang 20)
Hình 1.4: Phần mềm lọc nội dung mail - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 1.4 Phần mềm lọc nội dung mail (Trang 21)
Hình ảnh sau đây là trang quảng cáo của một số công ty chuyên tung thƣ rác  đƣợc Google liệt kê khi tìm kiếm hai từ “bulk mail”: - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
nh ảnh sau đây là trang quảng cáo của một số công ty chuyên tung thƣ rác đƣợc Google liệt kê khi tìm kiếm hai từ “bulk mail”: (Trang 27)
Hình 2.3: Minh họa cách gửi thư rác qua mail server (open relay) - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 2.3 Minh họa cách gửi thư rác qua mail server (open relay) (Trang 28)
Hình 2.5: Kiến trúc chung của hệ thống lọc thư - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 2.5 Kiến trúc chung của hệ thống lọc thư (Trang 34)
Hình 2.6: Mô hình tổng quát lọc thư rác Tiếng Việt - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 2.6 Mô hình tổng quát lọc thư rác Tiếng Việt (Trang 38)
Hình 2.7: Lưu lượng thư trong một môi trường SPF - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 2.7 Lưu lượng thư trong một môi trường SPF (Trang 43)
Hình 2.9: Lọc thư rác bằng phương pháp chặn IP - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 2.9 Lọc thư rác bằng phương pháp chặn IP (Trang 44)
Hình 2.10: Thông tin header của email - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 2.10 Thông tin header của email (Trang 51)
Hình 3.1: Nhiệm vụ của chương trình lọc thư rác - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 3.1 Nhiệm vụ của chương trình lọc thư rác (Trang 53)
Bảng 3.1. Bộ dữ liệu thử nghiệm - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Bảng 3.1. Bộ dữ liệu thử nghiệm (Trang 57)
Hình 3.3: Giao diện form thiết lập thông số huấn luyện hệ thống - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 3.3 Giao diện form thiết lập thông số huấn luyện hệ thống (Trang 58)
Hình 3.4: Lựa chọn thư mục chứa các thư mẫu cho việc huấn luyện - Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định
Hình 3.4 Lựa chọn thư mục chứa các thư mẫu cho việc huấn luyện (Trang 59)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w