Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng

 Chuyển thư Send Mail Sau khi người sử dụng máy vi tính dùng chương trình thư để viết thư và đã ghi rõ địa chỉ của người nhận thì máy tính sẽ chuyển bức thư điện đến hộp thư người nhận.

Trang 1

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT……… .iii

DANH MỤC HÌNH VẼ ……… v

LỜI MỞ ĐẦU……… …6

CHƯƠNG 1: TỔNG QUAN VỀ THƯ ĐIỆN TỬ ……… 7

1.1 Khái niệm thư điện tử ……… 7

1.1.1 Thư điện tử là gì?, ……… ……… 7

1.1.2 Kiến trúc và hoạt động của hệ thống thư điện tử……… 7

1.2 Giới thiệu một số giao thức sử dụng để gửi và nhận thư điện tử ………… 12

1.2.1 Giao thức gửi thư SMTP (Simple Mail Transfer Protocol)………… 12

1.2.2 Giao thức POP (Post Office Protocol)……… 17

1.2.3 Giao thức IMAP (Internet Message Access Protocol)……… 20

CHƯƠNG 2: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC …… 24

2.1 Thư rác ……… 24

2.1.1 Khái niệm về thư điện tử rác ……… 24

2.1.2 Các đặc điểm nhận dạng thư điện tử rác ……… 24

2.1.3 Phân loại thư điện tử rác ……… 26

2.2 Các phương pháp lọc thư rác ……… 29

2.2.1 Kỹ thuật chứng thực thư điện tử .30

2.2.2 Domain Keys (DK)……… …33

2.2.3 Phương pháp lọc theo từ khĩa……… 35

2.2.4 Sử dụng DNS Blacklist……… … 36

2.2.5 Kiểm tra người nhận……… 38

2.2.6 Chặn IP……… 38

2.3 Kỹ thuật lọc theo nội dung……… 38

2.3.1 Sử dụng bộ lọc Bayesian……….… 38

2.3.2 Sử dụng lọc theo thuật tốn Nạve Bayes ……… 44

2.3.3 Lọc sử dụng phương pháp Heuristic……… 49

Trang 2

CHƯƠNG 3: XÂY DỰNG BỘ LỌC THƯ TỰ ĐỘNG DỰA TRÊN KỸ

THUẬT NẠVE BAYES ……… 56

3.1 Phân tích câu……… 57

3.2 Xây dựng bộ lọc thư điện tử tự động……… 58

3.2.1 Tiến trình thu thập nội dung……… .60

3.2.2 Tiền xử lý……… ……… 61

3.2.3 Phân tích nội dung thư……… …62

3.2.3.1 Thư tiếng Anh……… 62

3.2.3.2 Thư tiếng Việt……….……… 62

3.2.4 Phân tích từ đơn……… 63

3.2.5 Phân tích từ ghép ……… 64

3.3 Quy trình lọc thư rác tiếng Việt……… 66

3.4 Cài đặt thực nghiệm ……… 68

3.5 Kết quả thực nghiệm ……… 71

3.5.1 Danh sách từ đơn ……… 71

3.5.2 Danh sách từ ghép ……… 73

3.5.3 Danh sách từ đơn và từ ghép……… 75

KẾT LUẬN ……… 78

TÀI LIỆU THAM KHẢO ……… . 79

Trang 3

DANH MỤC CÁC TỪ VIẾT TẮT

TT TỪ VIẾT TẮT TỪ ĐẦY ĐỦ TIẾNG ANH NGHĨA TIẾNG VIỆT

1 SMTP Simple Mail Transfer

4 SPF Sender Policy Framework Giao thức chứng thực

8 DNSBL DNSBL (DNS-based Blocklist) Danh sách đen

9 IP Internet Protocol Giao thức liên mạng

Trang 4

10 UA User Agent Tác nhân người dùng

Trang 5

DANH MỤC HÌNH VẼ

Hình 1.1: Mơ hình trao đổi thư điện tử……… 9

Hình 1.2 : Mơ hình trạm phục vụ thư (mail Server)……… 11

Hình 1.3: Mơ hình sử dụng SMTP (Nguồn: RFC 5321, Simple Mail Transfer Protocol)……… 12

Hình 1.4: Mơ hình hoạt động của giao thức POP3 ……….18

Hình 2.1: Việt Nam lọt top 10 quốc gia gửi đi nhiều thư điện tử rác nhất thế giới ……….27

Hình 2.2: Top 10 quốc gia cĩ tỷ lệ thư rác/đầu người cao nhất - Ảnh: ST……… 28

Hình 2.3: hoạt động của SPF động……… 31

Hình 2.4: Hiệu quả phương pháp SPF động……….32

Hình 2.5: Khung ID người gửi được thi hành trên MTA ……… 34

Hình 2.6: DNS Blacklist……… 37

Hình 2.7: Chặn IP……… 38

Hình 2.8: Hoạt động của bộ lọc thư rác Bayesian……… 40

Hình 2.9: Mơ tả bước xây dựng bộ phân lớp……… 47

Bảng 2.10: Các phần mềm chống thư rác cĩ bản quyền……… 52

Bảng 2.11: Các phần mềm chống thư rác mã nguồn mở……… 52

Hình 3.1: Mơ hình tổng quát……….60

Hình 3.2: Tiến trình học từ……… 61

Hình 3.3: Quy trình tách từ với thư tiếng Việt……….63

Bảng 3.4: Thống kê độ dài của từ trong từ điển……….65

Bảng 3.5: Ví dụ minh họa phân tích từ đơn……… 68

Hình 3.6 : Giao diện xử lý văn bản VLSP ……… 69

Hình 3.7: Nạp dữ liệu từ đơn với Nạve Bayes ………71

Hình 3.8: Phân lớp từ đơn với Nạve Bayes……… 71

Hình 3.9: Nạp dữ liệu từ ghép với Nạve Bayes……… 73

Hình 3.10: Phân lớp từ ghép với Nạve Bayes……… 73

Hình 3.11: Nạp dữ liệu từ đơn và từ ghép với Nạve Bayes……….75

Hình 3.12: Phân lớp từ đơn và từ ghép với Nạve Bayes……….75

Bảng 3.13: Kết quả phân loại thư tiếng Việt………77

Trang 6

LỜI MỞ ĐẦU

Truyền thơng qua internet nĩi chung và giao dịch trực tuyến bằng thư điện

tử nĩi riêng đã trở thành một nhu cầu khơng thể thiếu đối với con người trong thời đại Cơng nghệ thơng tin hiện nay Mỗi người khi sử dụng internet đều cĩ thể tạo ra cho mình một hoặc nhiều tài khoản email để cĩ thể liên hệ với gia đình, bạn bè và cơng việc

Chính vì điều này mà kẻ phát tán thư rác (spammer) đã tìm đủ mọi cách để thu thập địa chỉ email của người dùng, để từ đĩ cĩ thể sử dụng thơng tin này vào các mục đích như gửi thư quảng cáo, bán danh sách địa chỉ email của người dùng cho các doanh nghiệp khác để thu lợi những khoản tiền lớn

Spams ngày một nhiều hơn và chúng khơng ngừng tăng theo cấp “số nhân“ Spams, ngồi những thơng điệp quảng cáo, tiếp thị thơng thường của các spammers, một số hackers cịn lợi dụng việc phát tán thư rác để tấn cơng vào các email Server, lợi dụng thư rác để “lừa đảo” trực tuyến hay cài đặt virus, Trojan vào máy tính của người dùng Sự xuất hiện và gia tăng thư rác khơng những gây khĩ chịu và làm mất thời gian của người nhận mà cịn ảnh hưởng tới đường truyền Internet và làm chậm tốc độ xử lý của máy chủ thư điện tử, gây thiệt hại lớn về kinh tế

Trong phạm vi của đề tài, dưới sự hướng dẫn của PGS.TS Nguyễn Văn Tam, học viên đã chọn đề tài “Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP và ứng dụng” nhằm đề xuất giải pháp xây dựng bộ lọc nội dung tự động bằng phương pháp tách từ đơn, từ ghép và áp dụng thuật tốn Nạve bayes

để phân loại thư hợp lệ và thư rác

Trang 7

CHƯƠNG 1 TỔNG QUAN VỀ THƯ ĐIỆN TỬ

1.1 Khái niệm thư điện tử

1.1.1 Thư điện tử là gì?

Thư điện tử là một thông điệp gửi từ máy tính này đến một máy tính khác

trên mạng máy tính mang nội dung cần thiết từ người gửi đến người nhận Do thư điện tử gửi qua lại trên mạng và sử dụng tín hiệu điện vì vậy tốc độ truyền rất nhanh Ngoài ra người sử dụng có thể gửi hoặc nhận thư riêng hoặc các bức điện giao dịch với các file đính kèm như hình ảnh, các công văn tài liệu thậm chí

1.1.2 Kiến trúc và hoạt động của hệ thống thư điện tử

Muốn gửi thư điện tử người gửi cần phải có một account trên một máy chủ thư Một máy chủ có thể có một hoặc nhiều account Mỗi account đều được mang một tên khác nhau (userid) Mỗi account đều có một hộp thư riêng (mailbox) cho account đó Thông thường thì tên của hộp thư sẽ giống như tên của account Ngoài ra máy vi tính đó phải được nối trực tiếp hoặc gián tiếp với

hệ thống Internet nếu muốn gửi nhận thư điện tử toàn cầu Người sử dụng máy vi tính tại nhà vẫn có thể gửi nhận thư điện tử bằng cách kết nối máy vi tính của họ

Trang 8

với một máy vi tính khác bằng máy modem Có một số nơi cấp phát account thư điện tử miễn phí cho các máy vi tính tại nhà có thể dùng modem để kết nối với máy vi tính đó để chuyển nhận thư điện tử như hotmail.com hoặc yahoo.com v.v

 Đường đi của thư

Mỗi một bức thư truyền thống phải đi tới các bưu cục khác nhau trên đường đến với người dùng Tương tự thư điện tử cũng chuyển từ máy máy chủ thư điện

tử này (mail server) tới máy chủ tư điện tử khác trên internet Khi thư được chuyển đến đích thì nó được chứa tại hộp thư điện tử tại máy chủ thư điện tử cho đến khi nó được nhận bởi người nhận Toàn bộ quá trình xử lý chỉ xảy ra trong vài phút, do đó nó cho phép nhanh chóng liên lạc với mọi người trên toàn thế giới một cánh nhanh chóng tại bất cứ thời điểm nào dù ngày hay đêm

 Gửi, nhận và chuyển thư

Để nhận được thư điện tử bạn cần phải có một tài khoản (account) thư điện tử Nghĩa là bạn phải có một địa chỉ để nhận thư Một trong những thuận lợi hơn với thư thông thường là bạn có thể nhận thư điện tử từ bất cứ đâu Bạn chỉ cần kết nối vào Server thư điện tử để lấy thư về máy tính của mình

Để gửi được thư bạn cần phải có một kết nối vào internet và truy nhập vào máy chủ thư điện tử để chuyển thư đi Thủ tục tiêu chuẩn được sử dụng để gửi thư là SMTP (Simple Mail Transfer Protocol) Nó được kết hợp với thủ tục POP

(Post Office Protocol) và IMAP để lấy thư

Trang 9

Hình 1.1: Mô hình trao đổi thư điện tử

Trên thực tế có rất nhiều hệ thống vi tính khác nhau và mỗi hệ thống lại có cấu trúc chuyển nhận thư điện tử khác nhau Vì có sự khác biệt như vậy nên việc chuyển nhận thư điện tử giữa hai hệ thống khác nhau rất là khó khăn và bất tiện

Do vậy, người ta đã đặt ra một nghi thức chung cho thư điện tử Có nghĩa là các

hệ thống máy vi tính đều đồng ý với nhau về một nghi thức chung gọi là Simple Mail Transfer Protocol viết tắt là SMTP (Nghi Thức Đơn Giản Chuyển Vận Thư Từ) Nhờ vào SMTP này mà sự chuyển vận thư từ điện tử trên Internet đã trở thành dễ dàng nhanh chóng cho tất cả các người sử dụng máy vi tính cho dù họ

có sử dụng hệ thống máy vi tính khác nhau

Khi gửi thư điện tử thì máy tính của người sử dụng cần phải định hướng đến máy chủ SMTP Máy chủ sẽ tìm kiếm địa chỉ thư điện tử (tương tự như địa chỉ điền trên phong bì) sau đó chuyển tới máy chủ của người nhận và nó được chứa ở đó cho đến khi được lấy về Người gửi có thể gửi thư điện tử đến bất cứ

ai trên thế giới mà có một địa chỉ thư điện tử

Trang 10

 Chuyển thư (Send Mail)

Sau khi người sử dụng máy vi tính dùng chương trình thư để viết thư và đã ghi rõ địa chỉ của người nhận thì máy tính sẽ chuyển bức thư điện đến hộp thư người nhận SMTP sử dụng nghi thức TCP (TCP protocol) để chuyển vận thư

Vì nghi thức TCP rất là hữu hiệu và có phần kiểm soát thất lạc mất mát cho nên việc gửi thư điện tử có hiệu suất rất cao Khi nhận được mệnh lệnh gửi đi của người sử dụng, máy vi tính sẽ dùng nghi thức TCP liên lạc với máy vi tính của người nhận để chuyển thư Đôi khi vì máy vi tính của người nhận đã bị tắt điện hoặc đường dây kết nối từ máy gửi tới máy nhận đã tạm thời bị hư hỏng tạm thời tại một nơi nào đó (tranmission wire failure), hoặc là có thể là máy chuyển tiếp (routers) trên tuyến đường liên lạc giữa hai máy tạm thời bị hư (out of order) thì máy gửi không cách nào liên lạc với máy nhận được Gặp trường hợp như vậy thì máy gửi sẽ tạm thời giữ lá thư trong khu vực dự trữ tạm thời Máy gửi sau đó

sẽ tìm cách liên lạc với máy nhận để chuyển thư Những việc này xảy ra trong máy vi tính và người sử dụng sẽ không hay biết gì Nếu trong khoảng thời gian

mà máy vi tính của nơi gửi vẫn không liên lạc được với máy nhận thì máy gửi sẽ gửi một thông báo cho người gửi nói rằng việc vận chuyển của lá thư điện tử đã không thành công

• Nhận Thư (Receive Mail)

Nếu máy gửi có thể liên lạc được với máy nhận thì việc chuyển thư sẽ được tiến hành Trước khi nhận lá thư thì máy nhận sẽ kiểm soát tên người nhận

có hộp thư trên máy nhận hay không Nếu tên người nhận thư có hộp thư trên máy nhận thì lá thư sẽ được nhận lấy và thư sẽ được bỏ vào hộp thư của người nhận Trường hợp nếu máy nhận kiểm soát thấy rằng tên người nhận không có hộp thư thì máy nhận sẽ khước từ việc nhận lá thư Trong trường hợp khước từ

Trang 11

này thì máy gửi sẽ thông báo cho người gửi biết là người nhận không có hộp thư (user unknown)

Sau khi máy nhận đã nhận lá thư và đã bỏ vào hộp thư cho người nhận thì máy nhận sẽ thông báo cho người nhận biết là có thư mới Người nhận sẽ dùng chương trình thư để xem lá thư Sau khi xem thư xong thì người nhận có thể lưu trữ (save), hoặc xóa (delete), hoặc trả lời (reply) v.v Trường hợp nếu người nhận muốn trả lời lại lá thư cho người gửi thì người nhận không cần phải ghi lại địa chỉ vì địa chỉ của người gửi đã có sẵn trong lá thư và chương trình thư sẽ bỏ địa chỉ đó vào trong bức thư trả lời

 Trạm Phục Vụ Thư (Mail Server)

Trên thực tế, trong những cơ quan và hãng xưởng lớn, máy vi tính của người gửi thư không gửi trực tiếp tới máy vi tính của người nhận mà thường qua các máy chủ thư điện tử (mail servers)

Hình 1.2 : Mô hình trạm phục vụ thư (mail Server)

Như hình vẽ phía trên cho thấy, nếu như một người ở máy A gửi tới một người ở máy B một lá thư thì trước nhất máy A sẽ gửi đến máy chủ thư điện tử

X Khi trạm phục vụ thư X nhận được thư từ máy A thì X sẽ chuyển tiếp cho máy chủ thư điện tử Y Khi trạm phục vụ thư Y nhận được thư từ X thì Y sẽ

Trang 12

chuyển thư tới máy B là nơi người nhận Trường hợp máy B bị trục trặc thì máy chủ thư Y sẽ giữ thư

Thông thường thì máy chủ thư điện tử thường chuyển nhiều thư cùng một lúc cho một máy nhận Như ví dụ ở trên trạm phục vụ thư Y có thể chuyển nhiều thư cùng một lúc cho máy B từ nhiều nơi gửi đến

Một vài công dụng khác của máy chủ thư là khi người sử dụng có chuyện phải nghỉ một thời gian thì người sử dụng có thể yêu cầu máy chủ thư giữ giùm tất cả những thư từ trong thời gian người sử dụng vắng mặt hoặc có thể yêu cầu máy chủ thư chuyển tất cả thư từ tới một cái hộp thư khác

1.2 Giới thiệu một số giao thức sử dụng để gửi và nhận thư điện tử

1.2.1 Giao thức gửi thư SMTP (Simple Mail Transfer Protocol)

SMTP là một trong những giao thức cơ bản của Internet, được sử dụng để gửi thư điện tử SMTP gửi thông điệp dựa trên giao thức tin cậy TCP, sử dụng cổng mặc định là 25 Cũng như đa phần các giao thức ở lớp ứng dụng, SMTP gồm 2 thành phần: thành phần máy chủ SMTP (server) và thành phần máy khách SMTP (client) Cả hai thành phần này đều được tích hợp trên các máy chủ thư điện tử (mail server) Khi máy chủ gửi thư, nó đóng vai trò là client, khi máy chủ nhận thư nó đóng vai trò là server Việc thiết kế SMTP dựa trên mô hình giao tiếp như sau:

User

File

System

Sender- SMTP

SMTP commands/

replies

SMTP

Receiver-file System

Mail

Trang 13

Sender-SMTP thiết lập một kênh truyền tải hai chiều tới một Receiver-SMTP Receiver-SMTP hoặc là đích hoặc là điểm tạm thời

• Các lệnh SMTP được sinh ra bởi Sender-SMTP và gửi tới SMTP

Receiver-• Receiver-SMTP trả lời các lệnh gửi từ Sender-SMTP

Để gửi một thông điệp đến máy chủ SMTP (SMTP server), máy khách SMTP (SMTP client) thiết lập một kênh truyền hai chiều với máy chủ SMTP Phiên làm việc SMTP được khởi tạo khi một máy khách SMTP mở một kết nối đến máy chủ SMTP và máy chủ SMTP trả lời bằng một thông điệp mở kết nối; sau đó máy khách SMTP gửi một thông điệp chào thông qua câu lệnh HELO hoặc EHLO đến máy chủ SMTP kèm theo định danh của máy khách SMTP, đồng thời thể hiện máy khách SMTP sẵn sàng tiếp nhận và xử lý các câu lệnh Sau khi kênh truyền đã được thiết lập và kết thúc việc khởi tạo kết nối, máy khách SMTP sẽ khởi tạo một giao dịch thông điệp Giao dịch này sẽ bao gồm một tập các câu lệnh để xác định điểm xuất phát và đích đến của thông điệp cần gửi

Có ba bước trong các giao dịch thư SMTP:

- Phiên giao dịch bắt đầu với một lệnh MAIL cho biết định danh bên gửi

- Bước thứ hai là một chuỗi các lệnh RCPT để xác định thông tin của bên nhận

- Cuối cùng, một lệnh DATA khởi tạo việc truyền dữ liệu thư và được ngắt kết nối bởi một dấu hiệu dữ liệu “kết thúc thư”, đồng thời cũng khẳng định giao dịch

Các lệnh trên có cú pháp như sau:

MAIL <SP> FROM:<reverse-path> <CRLF>

Trang 14

R: 354 Start mail input; end with <CRLF>.<CRLF>

S: Blah blah blah

S: etc etc etc

S: <CRLF>.<CRLF>

R: 250 OK

Máy chủ SMTP sẽ trả lời từng câu lệnh từ máy khách SMTP để khẳng định câu lệnh đã được xử lý Ngay khi thông điệp đã được gửi đi, máy khách SMTP có thể yêu cầu đóng kết nối hiện tại thông qua câu lệnh QUIT hoặc có thể khởi tạo một giao dịch khác

Trong một số trường hợp, khi thông tin về địa chỉ đến không chính xác nhưng bên nhận lại biết rõ địa chỉ này, máy chủ SMTP có thể chuyển tiếp thư này đến địa chỉ đến mong muốn hoặc đưa ra gợi ý để trợ giúp cho bên gửi chỉnh

Trang 15

Một số tính năng quan trọng của SMTP

Bên cạnh cơ chế chuyển thư cơ bản, SMTP còn có một số tính năng khác cho phép SMTP hỗ trợ các yêu cầu kỹ thuật quan trọng, bổ trợ cho hệ thống thư điện tử như sau:

- Chuyển tiếp (Mail Relaying): Là khả năng máy chủ SMTP nhận thư từ máy khách SMTP và chuyển thư này đến máy chủ SMTP khác để chuyển thư hoặc gửi thư nhưng không sửa đổi dữ liệu mà chỉ lưu vết thông tin

- Chuyển thư (Mail Forwarding): Là khả năng máy chủ SMTP chuyển thư đến một địa chỉ thư xác định trước để lưu trữ thư

- Kiểm tra địa chỉ thư (Address Debugging): SMTP cung cấp câu lệnh để xác nhận một người dùng hay lấy nội dung của một danh sách thư thông qua các lệnh VRFY với tham số như tài khoản đăng nhập, họ và tên đầy đủ …

- Cổng thư (Mail Gatewaying): Là khả năng máy chủ SMTP nhận thư từ một hệ thống khách trong một môi trường vận chuyển và chuyển thư đến một hệ thống chủ trong một môi trường vận chuyển khác Sự khác nhau về giao thức hay ngữ nghĩa thư giữa các môi trường vận chuyển có thể yêu cầu cổng thư SMTP thực hiện biến đổi thông điệp không được phép đến hệ thống chuyển thư SMTP

SMTP được cài đặt trong các phần mềm máy chủ thư điện tử cung cấp dịch vụ thư điện tử (ví dụ: Microsoft Exchange Server, MDaemon Mail Server, Ipswitch IMail Server, IBM Lotus Domino, Sendmail…) và các phần mềm có chức năng gửi, nhận thư điện tử cài đặt trên máy khách (ví dụ: IBM Notes, Mozilla Thunderbird, Zimbra, Microsoft Outlook ) Trong Thông tư 01/2011/TT-BTTTT ngày 04/01/2011 của Bộ trưởng Bộ Thông tin và Truyền thông Công bố Danh mục tiêu chuẩn kỹ thuật về ứng dụng công nghệ thông tin

Trang 16

trong cơ quan nhà nước quy định Bắt buộc áp dụng tiêu chuẩn SMTP và được xếp vào nhóm Tiêu chuẩn về kết nối

Một số câu lệnh phổ biến trong SMTP

DATA Câu lệnh gửi nội dung của thông điệp từ nơi gửi đến

nơi nhận HELO (hoặc EHLO) Câu lệnh thể hiện sự chào hỏi giữa máy khách và máy

chủ SMTP MAIL Câu lệnh xác định địa chỉ nơi gửi

VRFY (VERIFY) Câu lệnh yêu cầu nơi nhận xác nhận các tham số để

xác định người sử dụng hay hộp thư RCTP (RECIPIENT) Câu lệnh xác định địa chỉ nơi nhận

– RCPT RCPT <SP> TO:<forward- path> <CRLF>

Định danh một người nhận dữ liệu mail thông qua tham số forward, nếu nhiều người nhận thì sử dụng nhiều dòng lệnh

– DATA DATA <CRLF> Các dòng sau lệnh này sẽ là dữ liệu thư

– RSET RSET <CRLF> Chỉ ra phiên giao dịch thư hiện tại sẽ bị loại bỏ – SEND SEND <SP> FROM:<reverse- path> CRLF> Khởi tạo phiên giao dịch dữ liệu thư phân phối tới một hoặc nhiều terminal Tham số reverse-path để định danh người gửi

- SOML SOML <SP> FROM:<reverse- path> <CRLF> Khởi tạo phiên giao dịch dữ liệu mail phân phối tới một hoặc nhiều terminal hoặc nhiều

Trang 17

- SAML SAML <SP> FROM:<reverse- path> <CRLF>

Khởi tạo phiên giao dịch dữ liệu mail phân phối tới một hoặc nhiều terminal và nhiều mailbox Tham số reverse-path để định danh người gửi

- VRFY VRFY <SP> <string> <CRLF>Yêu cầu người nhận mail xác nhận một người sử dụng

- EXPN EXPN <SP> <string> <CRLF>Yêu cầu xác nhận tham số để định danh một danh sách thư

- HELP HELP [<SP> <string>] <CRLF>Người nhận gửi thông tin trợ giúp tới người gửi

- NOOP NOOP <CRLF>Nhận được lệnh này từ phía người gửi, tức là không thực hiện gì khác, thì người nhận trả lời OK

- QUIT QUIT <CRLF>Lệnh này yêu cầu người nhận gửi tín hiệu trả lời

OK, sau đó đóng phiên giao dịch

- TURN TURN <CRLF>Lệnh này yêu cầu người nhận hoặc là phải gửi tín hiệu OK và sau đó đóng vai trò là Sender-SMTP, hoặc là phải gửi tín hiệu từ chối và trả về đúng vai trò ReceiverSMTP

1.2.2 Giao thức POP (Post Office Protocol)

POP cho phép các mail client (UA – User Agent) ở máy cục bộ kết nối vào pop server (MTA – Message Transfer Agent) và lấy mail về máy tính cục bộ nơi mà người sử dụng có thể đọc và trả lời các message POP được định nghĩa đầu tiên vào năm 1984, được nâng cấp trong POP2 vào năm 1988 Chuẩn hiện hành là POP3

- POP3 UA kết nối với TCP/IP đến server (cổng chuẩn 110) Người dùng điền username và password Sau khi xác thực đầu client sẽ sử dụng các lệnh của POP3 để có thể thực hiện các chức năng sau:

- Nhận và xóa thư điện tử trên máy chủ thư điện tử

Trang 18

- Nhận nhưng không xóa thư điện tử trên máy chủ thư điện tử

- Lựa chọn có nhận thư điện tử mới về không

- Chỉ xem một phần nội dung thư để biết có nên nhận thư hay không

Hoạt động của giao thức POP3 được thể hiện ở hình dưới đây:

Hình 1.4: Mô hình hoạt động của giao thức POP3

Một phiên POP3 có ba trạng thái là: AUTHORIZATION, TRANSACTION và UPDATE

– Trạng thái AUTHORIZATION: Trong trạng thái này server sẽ xác thực client Khi server xác thực client thành công thì phiên vào trạng thái TRANSACTION

– Trạng thái TRANSACTION: Trong trạng thái này, client có thể truy nhập tới mailbox của mình trên server để kiểm tra, nhận thư

POP3 Client

POP3 Server

TCP connection

AUTHORIZATION state

TRANSACTION state

UPDATE state

Trang 19

– Trạng thái UPDATE: Khi client gửi lệnh QUIT tới server từ trạng thái TRANSACTION, thì phiên vào trạng thái UPDATE, trong trạng thái này server gửi goodbye tới client và đóng kết nối TCP, kết thúc phiên làm việc

RETR Lấy một message cụ thể

DELE Xóa một message cụ thể

NOOP Không làm gì cả

RSET Hủy hành động của các lệnh DELE (rollback)

QUIT Chấp nhận các thay đổi và cắt kết nối

Các lệnh trong POP3 có thể có một hoặc nhiều đối số Kết thúc của lệnh bởi một cặp CRLF Các từ khoá và đối số trong lệnh là các ký tự trong ASCII

– Một lời đáp lại (response) từ POP3 server gồm một mã trạng thái và theo sau là các thông tin Có hai mã trạng thái hiện hành là: thành công (+OK) và lỗi (-ERR)

Cơ chế xác thực và các lệnh trong trạng thái AUTHORIZATION

– Có hai cơ chế xác thực: Cơ chế thứ nhất sử dụng kết hợp hai lệnh USER và PASS, cơ chế xác thực thứ hai sử dụng lệnh APOP

– Ngoài ra còn có các cơ chế xác thực khác được mô tả trong RFC 1734 Xác thực sử dụng kết hợp hai lệnh USER và PASS:

• Lệnh USER

• Cú pháp: USER name

Trang 20

• Đối số: name là tên người dùng

• Mô tả: Được sử dụng trong trạng thái AUTHORIZATION để gửi tên của user tới POP3 server Server sẽ đáp lại thành công (+OK) nếu nhập tên user là đúng và ngược lại sẽ trả lại mã lỗi (-ERR) Chú ý: trong các ví dụ kể từ đây, ký hiệu C: được gửi từ Client và S: là response của Server

S: -ERR sorry, no mailbox for frated here

1.2.3 Giao thức IMAP ( Internet Message Access Protocol)

Người sử dụng thường có nhu cầu tổ chức, phân loại, tìm kiếm thư điện tử

và người sử dụng chỉ có thể làm việc đó sau khi đã tải thư điện tử về máy Vì POP3 không hỗ trợ các tính năng như vậy nên người sử dụng không thể thực hiện nó trên máy chủ thư điện tử

IMAP khắc phục những hạn chế của POP IMAP được phát triển vào năm

1986 bởi trường Đại học Stanford IMAP2 phát triển vào năm 1987 IMAP4, là bản mới nhất đang được sử dụng và nó được các tổ chức tiêu chuẩn Internet chấp nhận vào năm 1994 IMAP4 được quy định bởi tiêu chuẩn RFC 2060 và nó

sử dụng cổng 143 của TCP Tuy nhiên nó phức tạp và có nhiều tính năng hơn POP3

IMAP là một giao thức cho phép client truy nhập email trên một server, không chỉ tải thông điệp thư điện tử về máy của người sử dụng (POP) mà có thể

Trang 21

thực hiện các công việc như: tạo, sửa, xoá, đổi tên mailbox, kiểm tra thông điệp mới, thiết lập và xoá cờ trạng thái,

• IMAP được thiết kế trong môi trường người dùng có thể đăng nhập vào server (cổng 143/TCP) từ các máy trạm khác nhau

Sử dụng IMAP với các mục đích sau:

– Tương thích đầy đủ với các chuẩn thông điệp Internet (ví dụ MIME) – Cho phép truy nhập và quản lý thông điệp từ nhiều máy tính khác nhau – Hỗ trợ cả 3 chế độ truy nhập: online, offline, và disconnected

– Hỗ trợ truy nhập đồng thời tới các mailbox dùng chung

– Phần mềm bên client không cần thiết phải biết kiểu lưu trữ file của server

EXAMINE Điền hộp thư chỉ được phép đọc

RENAME Đổi tên hộp thư

SUBSCRIBE Thêm vào một list đang hoạt động

UNSUBSCRIBE Dời khỏi list đang hoạt động

LSUB Hiện danh sách người sử dụng hộp thư

Trang 22

STATUS Trạng thái của hộ thư (số lượng thư, )

APPEND Thêm message vào hộp thư

CHECK Yêu cầu kiểm tra hộp thư

CLOSE Thực hiện xoá và thoát khỏi hộp thư

EXPUNGE Thực hiện xoá

SEARCH Tìm kiếm trong hộp thư để tìm messages xác

định FETCH Tìm kiếm trong nội dung của message

STORE Thay đổi nội dụng của messages COPY

Copy message sang hộp thư khác

Trang 23

- Đặc biệt hỗ trợ cho các chế việc làm việc online, offline, hoặc không kết nối

IMAP4 ở chế độ online thì hỗ trợ cho việc lấy tập hợp các thư từ máy chủ, tìm kiếm và lấy message cần tìm về IMAP4 cũng cho phép người dùng chuyển thư từ thư mục này của máy chủ sang thư mục khác hoặc xoá thư IMAP4 hỗ trợ rất tốt cho người dùng hay phải di chuyển và phải sử dụng các máy tính khác nhau

Chương một trình bày tổng quan về thư điện tử, khái niệm, lợi ích của thư điện tử, kiến trúc thư điện tử, các giao thức chuyển, nhận thư Các nội dung không chỉ trình bày những khái niệm, đặc điểm cơ bản vai trò của thư điện tử mà còn mô tả về các đặc điểm kỹ thuật, mô hình trao đổi thư điện tử, các giao thức được sử dụng phổ biến khi gửi và nhận thư điện tử Những nội dung này sẽ là cơ

sở nghiên cứu sâu hơn các công nghệ ngăn chặn thư rác được mô tả tại chương hai

Trang 24

CHƯƠNG 2

THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC

2. 1 Thư rác

2.1.1 Khái niệm về thư điện tử rác

Hiện nay, chưa có bất cứ một định nghĩa chính thức nào về thư spam Một định nghĩa thông dụng nhất về spam có thể hiểu thư spam như sau : “Thư rác (spam) là những bức thư điện tử không yêu cầu, không mong muốn và được gửi hàng loạt tới nhiều người nhận khác nhau” “Thư không yêu cầu” là người nhận thư không yêu cầu người gửi gửi bức thư đó “Thư được gửi hàng loạt” là bức thư có nội dung gửi giống nhau, người nhận đã nhận được nằm trong một loạt các thư được gửi đi cho nhiều người khác Tuy nhiên, không phải tất cả các thư không mong muốn đều là thư spam và ngược lại không phải tất cả các thư spam đều là thư quảng cáo

Theo một số quan điểm hiểu theo nghĩa hẹp, thư spam là những thư quảng cáo không được yêu cầu (Unsolicited Commercial Email – UCE) Một số quan điểm hiểu theo nghĩa rộng thư spam là bao gồm tất cả thư quảng cáo, quấy rối, những thư có nội dung không lành mạnh (Unsolicited Bulk Email – UBE)

Tóm lại, thư spam có thể xem là thư không được yêu cầu và được gửi đi hàng loạt Nội dung bức thư là yếu tố quyết định dùng để phân biệt thư spam và thư thông thường, và đó cũng chính là cơ sở chính cho giải pháp phân loại thư spam bằng cách phân tích nội dung thư

2.1.2 Các đặc điểm nhận dạng thư điện tử rác

- Dựa vào nội dung thư điện tử

Trang 25

- Để ý trường To trong tiêu đề (header) của thư điện tử, nếu không thấy tên của mình hoặc địa chỉ thư điện tử, thì đây chính là thư điện tử giả mạo

- Để ý lời chào hỏi, không thấy câu chào hỏi nào thì đây cũng là một nghi vấn để xem nó là một thư điện tử giả mạo Bởi vì những kẻ giả mạo thư điện tử thường không biết chính xác tên của người nhận Tuy nhiên, không phải thư điện

tử nào không có lời chào hỏi đều là giả mạo, đây là một cách mang tính sơ bộ đánh giá

- Xem các URL xuất hiện trong thư điện tử và so sánh với thanh trạng thái của trình duyệt, khi di chuột trên URL không cần kích vào chúng, sau đó quan sát thanh trạng thái bên dưới và so sánh 2 liên kết Để ý giao thức an toàn hiển thị trong URL là https:// thay vì http:// Nếu phát hiện thấy URL chỉ hiện thị http:// thì có thể là một thư điện tử giả mạo

- Để ý đến ngữ pháp của ngôn ngữ: Kẻ giả mạo thường đến từ các nước không nói tiếng Anh, nên họ thường mắc một số lỗi chấm câu và ngữ pháp nhỏ trong lúc copy

- Không tin vào địa chỉ liên kết xuất hiện trong thanh trạng thái của trình duyệt So sánh địa chỉ URL trong thư điện tử và trong thanh trạng thái hoàn toàn giống nhau, thì vẫn có thể liên kết trỏ đến một địa chỉ nào đó Để kiểm tra chúng

ta nên chọn URL và copy nó sau đó paste nó vào trình duyệt khác để xem xét Không sử dụng lệnh copy Link Location từ menu chuột phải

- Kiểm tra tên miền của liên kết bằng cách so sánh tên miền trong thư điện

tử và tên miền trong thanh trạng thái

Giả mạo thông tin định danh trong thư điện tử là thay đổi các thông tin trong phần tiêu đề thư điện tử

Trang 26

Bản thân SMTP, đã không được thiết kế với tính năng bảo mật Chính vì vậy thư điện tử có thể giả mạo rất dễ dàng Mặc dù không phải tất cả các trường trong tiêu đề thư điện tử đều có thể giả mạo và trong trường hợp thư điện tử không được gửi trực tiếp từ nhà của kẻ phát tán thư rác (spammer) thì việc truy tìm thủ phạm phát tán thư rác là không thể

Các trường thông tin trong phần tiêu đề có thể bị thay đổi: Subject, Date, Message-ID, From, To, CC, X-Mailer and X-Message-Info, trường Received khởi tạo

Các trường thông tin trong phần tiêu đề không thể bị thay đổi: Trường Received cuối cùng, trường thể hiện máy chủ thư điện tử gốc (địa chỉ IP)

Các Spammer thay đổi thông tin trong phần tiêu đề theo hai cách :

- Cung cấp thông tin sai trong quá trình khởi tạo thông điệp, quá trình kết nối với máy chủ thư điện tử

- Gửi thư thông qua máy tính trung gian gọi là open relay hoặc open proxy

2.1.3 Phân loại thư điện tử rác

Việc phân loại thư rác rất quan trọng không chỉ trong lĩnh vực tạo những

bộ lọc thư rác phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thư rác thích hợp

Có rất nhiều cách phân loại thư rác

- Dựa trên kiểu phát tán thư rác: Tính tới thời điểm hiện tại, thư rác có

thể bị gửi thông qua thư điện tử, nhóm thảo luận (newsgroups), điện thoại di động (Short Message Service - SMS) và các dịch vụ gửi tin nhắn trên mạng (như

Trang 27

- Dựa vào quan hệ với người gửi thư rác: bao gồm người lạ mặt, bạn bè,

người quen và các dịch vụ quyên góp giúp đỡ…

- Dựa vào nội dung của thư rác: các kiểu nội dung phổ biến như thư về

thương mại, thư về chính trị, thư về công nghệ, chuỗi thư (chain e-mail) và các loại khác (như thư phát tán virus )

- Dựa trên động lực của người gửi: Thông thường, thư rác được gửi đi

cho những mục đích quảng bá thông tin Ngoài ra, còn có một số loại thư rác được gửi tới một người nhận xác định nào đó nhằm mục đích phá vỡ và gây cản trở công việc của người nhận hay mạng của nhà cung cấp dịch vụ thư điện tử (ESP) được gọi là “bom thư” Thư rác còn được cố ý gửi đi nhằm thông báo tin sai lệch, làm xáo trộn công việc và cuộc sống của người nhận

Sự phân loại thư rác rất quan trọng không chỉ trong lĩnh vực tạo những bộ lọc thư rác có hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thư rác phù hợp

Một số thống kê thư điện tử rác

Cùng với các quốc gia phát triển như Pháp, Đức, Hàn Quốc và cả Mỹ, Việt Nam nằm trong top 10 quốc gia… gửi thư rác nhiều nhất thế giới

Hình 2.1: Việt Nam lọt top 10 quốc gia gửi đi nhiều thư điện tử rác nhất thế giới

Trang 28

Dựa theo số liệu từ công ty bảo mật Sophos do Statista thống kê tháng 8 năm 2014, nước Mỹ đóng góp nhiều nhất vào lượng thư rác khổng lồ trên thế giới: cứ 4 email spam gửi đi thì lại có 1 email đến từ nước Mỹ Pháp và Trung Quốc nắm vị trí thứ 2 và 3: có 6,7% thư rác toàn cầu đến từ nước Pháp và 6,2% lượng email spam được gửi từ Trung Quốc Vị trí dẫn đầu của Mỹ có thể là do dân số lớn, tỷ lệ người dùng công nghệ cao cũng như vai trò trung tâm thế giới

số của quốc gia này Khi xét tới tỷ lệ spam trên dân số, nước Mỹ tụt ra khỏi top

10 Đứng đầu danh sách số lượng spam/dân số là Bulgaria và Belarus, trung bình, trong quý vừa qua một người dân tại 2 quốc gia này sẽ gửi đi 2 tin rác

Hình 2.2: Top 10 quốc gia có tỷ lệ thư rác/đầu người cao nhất - Ảnh: ST

Điểm đáng chú ý nhất về danh sách của Sophos là vị trí số 10 tại Việt Nam trong bảng xếp hạng số lượng spam rác gửi đi: 2,7% Như vậy, cứ khoảng 40 thư rác được gửi đi trong quý 2 vừa qua thì có 1 thư rác đến từ Việt Nam Có lẽ, vị trí đáng buồn mà Việt Nam đang giữ nằm ở 2 lý do chính: một là do dân số nước

ta khá trẻ, tỷ lệ người dùng công nghệ ngày càng gia tăng; hai là người dân chưa

Trang 29

người dùng Internet Việt Nam gần như sẵn sàng cung cấp địa chỉ email của mình cho các ứng dụng không rõ ràng, các chương trình khuyến mại trên mạng và công khai thông tin nhạy cảm này trên các diễn đàn mạng/các fanpage nhiều người dùng Các trang fanpage Facebook và các diễn đàn mạng không minh bạch sẽ mang rao bán địa chỉ email của người dùng tới các công ty quảng cáo Phản ứng của đại đa số người dùng với tình trạng này cũng chưa đủ gay gắt, chưa kể rất ít người dùng tự bảo vệ địa chỉ email của mình Ngoài ra, vấn đề bảo mật tại các công ty cũng chưa được đảm bảo đúng mức, khiến thông tin người dùng (bao gồm cả email) bị lộ trong các vụ hack Mã độc có lẽ cũng là một lý do khiến thư rác tràn ngập tại Việt Nam và trên thế giới Nhận định của Sophos cho biết phần lớn email spam đến từ những người dùng không hiểu biết nhiều về công nghệ: "Hãy nhớ rằng phần lớn thư rác được gửi từ những máy tính bị nhiễm mã độc Nếu không cần thận, bạn có thể trở thành nguồn tạo thư rác chứ không phải người cần đề phòng spam"

2.2 Các phương pháp lọc thư rác

Nghị định số 90 về chống thư rác có hiệu lực từ 9.2.2009 nhưng thư rác hầu như không giảm mà vẫn tiếp tục tăng làm nhức nhối trong xã hội những năm gần đây Nhiều công trình nghiên cứu về phương pháp lọc thư rác đã được đầu tư

và tiến hành từ khá lâu Để đánh giá hiệu quả của một công cụ lọc thư rác người

ta thường dựa trên hai độ đo sau:

False Positive – Tỷ lệ thư thường bị lọc nhầm thành thư rác

False Negative – Tỷ lệ thư rác bị lọc nhầm thành thư thường

Trong hai lỗi trên thì lỗi False Positive là loại lỗi cần tránh nhất, người dùng thường không chấp nhận lỗi này Các công cụ lọc thư rác thường được tính toán sao cho độ đo False Positives và False Negatives là nhỏ nhất Tuy nhiên, lỗi False Positives có phần được ưu tiên hơn Một bộ lọc lý tưởng là sản phẩn có

Trang 30

False Positives bằng 0 và False Negatives bằng 0 Điều này dường như là không thể, do vậy đã có một số phần mềm chống thư rác rất tốt như Sender Policy Framework (SPF), DomainKeys (DK), phương pháp lọc thư rác theo từ khóa, DNS Blacklist, kiểm tra người nhận, chặn IP, lọc Bayesian…giúp cho người sử dụng E-mail tránh được một số thư rác không mong muốn

2.2.1 K ỹ thuật chứng thực thư điện tử

Sender Policy Framework (SPF) là kỹ thuật ngăn chặn spam thuộc nhóm phương pháp xác thực địa chỉ người gửi (sender authentication), kỹ thuật này giúp người nhận xác thực địa chỉ của người gửi là thật hay giả, từ đó có thể ngăn chặn được việc phát tán thư rác hay lừa đảo trực tuyến

Phương pháp SPF do tập đoàn American Online (AOL) đưa ra Phương pháp này yêu cầu xác lập DNS, trong đó khai báo những máy chủ nào có thể gửi thư từ một tên miền Internet nhất định Phía người nhận sẽ thông qua truy vấn

DNS để xác thực địa chỉ của người gửi và địa chỉ IP có phù hợp

Phương pháp SPF động

Để khắc phục nhược điểm trên của SPF, nhóm tác giả đề xuất phương pháp SPF động (Dynamic Sender Policy Framework) Ý tưởng của phương pháp này là việc xác thực địa chỉ người gửi sẽ được thực hiện trên máy chủ DNS của một đơn vị thứ ba thay vì thực hiện trên máy chủ DNS của bên gửi thư Như thế bên nhận thư vẫn được hưởng lợi ích từ SPF mà bên gửi thư không cần phải xác lập lại máy chủ DNS của mình

Trang 31

Hình 2.3: hoạt động của SPF động

Cơ sở dữ liệu SPF động chứa thông tin khai báo những máy chủ nào có thể gửi thư từ một hoạt động của SPF động, tên miền Internet nhất định Cơ sở

dữ liệu SPF động được xây dựng thông qua thống kê, phân tích các số liệu lịch

sử Dựa vào cơ sở dữ liệu này để phán đoán một thư mới có phải là thư rác hay lừa đảo trực tuyến hay không Nếu thư mới được gửi đi từ một địa chỉ IP có trong cơ sở dữ liệu ứng với tên miền của địa chỉ người gửi thì đó là thư bình thường, ngoài ra thì bị nghi vấn là thư rác Để hệ thống hoạt động chính xác thì

cơ sở dữ liệu này cần phải chính xác

Các dữ liệu SPF động sẽ được cung cấp cho người dùng (máy chủ thư điện tử) dưới dạng dịch vụ của một bên thứ 3 Trong Hình 2.3, khi máy chủ nhận được một thư điện tử, nó sẽ truy vấn dịch vụ của máy chủ cung cấp dịch vụ SPF động để lấy các thông số về địa chỉ người gửi, từ đó xác định địa chỉ người gửi là thật hay giả Các truy vấn của người dùng đến dịch vụ SPF động sẽ được máy chủ cung cấp dịch vụ ghi lại Số liệu này sẽ được dùng để thống kê, phân tích và cập nhật CSDL của SPF động

Trang 32

Dữ liệu sử dụng để nghiên cứu

Theo số liệu của một trường đại học đã chọn phương pháp thu thập log file của máy chủ mail tại Trường để chắt lọc ra những thông tin cần thiết Toàn bộ tập mẫu được lưu trữ dưới dạng cơ sở dữ liệu, cho phép các bước nghiên cứu tiếp theo dễ dàng sử dụng Số lượng thư trong tập dữ liệu mẫu như sau:

Tổng số thư: 46810

Tổng số thư bình thường: 7855

Tổng số thư rác: 38955

Số thư có nội dung lừa đảo trực tuyến: 53

Kết quả này khẳng định có thể thông qua thống kê các số liệu lịch sử để chắt lọc các địa chỉ máy chủ thật cho một tên miền kết quả được trình bày trong Hình 2.4

Hình 2.4: Hiệu quả phương pháp SPF động

Trong đó cho thấy nếu sử dụng các ngưỡng thời gian có hiệu lực khác nhau ta sẽ có các sai số khác nhau về khả năng lọc thư rác, ví dụ nếu ngưỡng

Trang 33

thời gian có hiệu lực là 3 ngày, khi đó phương pháp SPF động lọc được 98% tổng số thư rác, lọc nhầm 0.1% số thư bình thường

Phía gửi:

- Người sở hữu tên miền tạo ra cặp khóa công khai/riêng tư Khóa công khai được hỗ trợ qua bản ghi DNS, khóa riêng tư được sử dụng để gửi thư điện tử

- Chữ ký điện tử được tạo ra từ khóa riêng tư và hàm băm với nội dung thư

và được bổ sung vào tiêu đề thư điện tử và gửi tới phái nhận

Trang 34

Hình 2.5: Khung ID người gửi được thi hành trên MTA

Domainkeys yêu cầu cả bên gửi Mail Transfer Agent (MTA) và bên nhận MTA thực hiện domainkey Việc xác minh của Domainkeys_signature có thể cũng được thực hiện tại Domainkeys_enabled của Mail User Agent (MUA)

Khi server nhận được tên của domain từ mail gốc (string-domainkey) thì

bộ selector thực hiện tra cứu DNS Dữ liệu trả về chứa khóa công khai của domain đó Người nhận có thể giải mã giá trị băm chứa trong trường tiêu đề và đồng thời tính lại giá trị băm cho phần thân của mail nhận được sau đó so sánh hai giá trị này nếu giống nhau chứng tỏ mail được gửi là thật, đảm bảo tin cậy nếu không là mail không đáng tin

Ưu điểm:

- xác định nguồn gốc domain của email một cách rõ ràng, sẽ hiệu quả hơn nếu kết hợp với sử dụng danh sách đen và danh sách trắng Giúp dễ dàng phát

Trang 35

- Loại bỏ những email giả mạo tại phần mềm email người dùng cuối (mail user agents) hoặc bởi ISP’s mail transfer agents

- Theo dõi việc lạm dụng domain của những cá nhân một cách dễ dàng hơn

Khả năng tương thích:

Domainkeys tương thích với cấu trúc hiện tại của email Trong trường hợp đặc biệt, đối với hệ thống email mà không có sự hỗ trợ của domainkeys thì nó là trong suốt

2.2.3 Phương pháp lọc theo từ khóa

Phương pháp lọc thư rác theo từ khóa là một phương pháp truyền thống trong việc lọc thư rác Người ta dựa vào những từ hay cụm từ có trong đầu đề của thư (subject) và nội dung của thư để lọc

Khi một thư điện tử được gửi tới hòm thư của bạn, bạn phải tạo một bộ lọc mới đơn giản bằng cách chọn một số từ hoặc cụm từ trong nội dung thư Các từ hay cụm từ này sẽ xác định đó là thư rác hay không Vì mục đích của tất cả spam

cơ bản là giống nhau (bán hoặc quảng cáo một sản phẩm hay một dịch vụ) và nội dung của hầu hết spam đều mang các đặc điểm chung Những cụm từ, câu chữ như “Silk ties”(Cà vạt lụa) hoặc “Eliminate ebt”(Xoá nợ) xuất hiện thường xuyên trên spam và được coi những cụm từ thường xuyên xuất hiện nhất trong

Trang 36

các bức thư không mong muốn Các đặc điểm nội dung khác để nhận diện spam như yêu cầu hành động như “Fin out how, click here” hoặc thông báo huỷ như

“If you want to be removed from our mailing lists…”

Một vài năm gần đây, những kẻ gửi thư rác đã bắt đầu nhận ra rằng thư rác của chúng đã bị chặn bởi bộ lọc theo từ khóa này Do vậy những kẻ gửi thư rác này đã thay đổi cách viết nội dung của thư rác nhằm làm cho thư rác của chúng

có thể “xuyên qua” các bộ lọc Điều này có thể giải thích tại sao bạn nhận nhiều thư với những từ như "Vi@gra", "Mort.gage", "L|0|a|n|$"hay những tranh ảnh được nhúng vào trong thư Phương pháp này có một số ưu điểm và nhược điểm sau:

Ưu điểm:

Tính thích nghi: Người dùng có thể dễ dàng biến đổi bộ lọc để nó có thể lọc các kiểu thư rác mà người đó đang phải nhận và điều quan trọng là nó không cản trở (thích nghi) các từ và các cụm từ được sử dụng hàng ngày trong kinh doanh thương mại với bạn bè hay những người thân quen

Nhược điểm:

Yêu cầu nhiều tiến trình xử lý bằng tay để điều chỉnh và duy trì bộ lọc được hiệu quả Để có thể đánh lừa các bộ lọc, những kẻ gửi thư rác luôn luôn thay đổi hình thức nội dung của thư rác, do đó những bộ lọc mở rộng phải được tạo ra để chống lại điều đó

Trang 37

Hình 2.6: DNS Blacklist

Có hai loại danh sách DNS Blacklist thường được sử dụng, đó là:

Danh sách các miền, các domain name gửi spam đã biết

Danh sách các máy chủ email cho phép hoặc bị lợi dụng thực hiện việc chuyển tiếp spam tới người dùng từ những email được gửi đi từ spammer Khi một email được gửi đi, nó sẽ đi qua một số SMTP server trước khi chuyển tới địa chỉ người nhận Địa chỉ IP của các SMTP server mà email đó đã chuyển qua được ghi trong phần header của email

Các chương trình chống spam sẽ kiểm tra tất cả các địa chỉ IP đã được tìm thấy trong phần header của email đó sau đó so sánh với cơ sở dữ liệu DNS Blacklist đã biết Nếu địa chỉ IP tìm thấy trong phần này có trong cơ sở dữ liệu

về các DNS Blacklist, nó sẽ bị coi là spam, còn nếu không, email đó sẽ được coi

là một email hợp lệ

Ưu điểm: là các email có thể được kiểm tra trước khi tải xuống, do đó tiết

kiệm được băng thông đường truyền

Nhược điểm: của phương pháp này là không phát hiện ra được những

email giả mạo địa chỉ người gửi

Trang 38

2. 2.5 Kiểm tra người nhận

Tấn công spam kiểu “từ điển” sử dụng các địa chỉ email và tên miền đã biết để tạo ra các địa chỉ email hợp lệ khác Bằng kỹ thuật này spammer có thể gửi spam tới các địa chỉ email được sinh ra một cách ngẫu nhiên Một số địa chỉ email trong số đó có thực, tuy nhiên một lượng lớn trong đó là địa chỉ không tồn tại và chúng gây ra hiện tượng “lụt” ở các máy chủ mail

Phương pháp kiểm tra người nhận sẽ ngăn chặn kiểu tấn công này bằng cách chặn lại các email gửi tới các địa chỉ không tồn tại trên Active Directory hoặc trên máy chủ mail server trong công ty Tính năng này sẽ sử dụng Active Directory hoặc LDAP server để xác minh các địa chỉ người nhận có tồn tại hay không Nếu số địa chỉ người nhận không tồn tại vượt quá một ngưỡng nào đó (do người quản trị thiết lập) thì email gửi tới đó sẽ bị coi là spam và chặn lại

2.2.6 Chặn IP

Hình 2.7: Chặn IP

Phương pháp này sẽ chặn các email được gửi đến từ các địa chỉ IP biết trước Khi một email đến, bộ lọc sẽ phân tích địa chỉ máy gửi và so sánh với danh sách địa chỉ bị chặn Nếu email đó đến từ một máy có địa chỉ trong danh sách này thì nó sẽ bị coi là spam, ngược lại nó sẽ được coi là email hợp lệ

2.3 Các kỹ thuật lọc theo nội dung

2.3.1 Sử dụng bộ lọc Bayesian

Bộ lọc Bayesian là kỹ thuật lọc thống kê hoạt động dựa trên định lý Bayes

Trang 39

Kỹ thuật tương tự như vậy được sử dụng để phân loại spam Nếu một số phần văn bản xuất hiện thường xuyên trong các spam nhưng thường không xuất hiện trong các email thông thường, thì có thể kết luận rằng email đó là spam

Trước khi có thể lọc email bằng bộ lọc Bayesian, người dùng cần tạo ra cơ

sở dữ liệu từ khóa và dấu hiệu (như là ký hiệu $, địa chỉ IP và các miền ) sưu tầm từ các spam và các email không hợp lệ khác

Mỗi từ hoặc mỗi dấu hiệu sẽ được cho một giá trị xác suất xuất hiện, giá trị này dựa trên việc tính toán có bao nhiêu từ thường hay sử dụng trong spam,

mà trong các email hợp lệ thường không sử dụng Việc tính toán này được thực hiện bằng cách phân tích những email gửi đi của người dùng và phân tích các kiểu spam đã biết

Để bộ lọc Bayesian hoạt động chính xác và có hiệu quả cao, cần phải tạo

ra cơ sở dữ liệu về các email thông thường và spam phù hợp với đặc thù kinh doanh của từng công ty Cơ sở dữ liệu này được hình thành khi bộ lọc trải qua giai đoạn “huấn luyện” Người quản trị phải cung cấp khoảng 1000 email thông thường và 1000 spam để bộ lọc phân tích tạo ra cơ sở dữ liệu cho riêng nó

Quá trình hoạt động của bộ lọc thư rác Bayes

Phương pháp lọc thống kê chủ yếu dựa trên việc dạy cho bộ lọc biết làm sao để có thể phân biệt được hai loại thư khác nhau là “thư rác (spam)” và “thư hợp lệ (ham)” Qua đó bộ lọc có thể đoán được một thư mới đến giống loại nào nhất

Trang 40

Hình 2.8: Hoạt động của bộ lọc thư rác bayesian

Mô hình trên mô tả hoạt động cơ bản của bộ phân loại thư rác Một thư điện tử được gửi vào mạng trước tiên sẽ được bộ tách từ phân tích Nó được kiểm tra và được tách ra thành các thành phần nhỏ hơn Bộ tách từ sẽ truy vấn trong cở sở dữ liệu để xác định mức độ qua trọng của mỗi thành phần rồi truyền thông tin này đến máy phân tích kết quả (Alalysis Engine) Sau đó máy phân tích kết quả sẽ tính toán xem xác suất thông điệp là thư rác hay thư hợp lệ Thông điệp (được đánh dấu nếu là thư rác) sẽ được gửi lại cho người dùng Nếu người dùng phản hồi đã phân loại sai thì thông điệp sẽ được huấn luyện để cập nhật vào tập dữ liệu lịch sử

Kỹ thuật lọc Bayesian dựa trên định lý Bayes được thực hiện các bước

Định dạng
Số trang	80
Dung lượng	1,39 MB