Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ MỞ ĐẦU Thư rác spam là thư điện tử được gửi hàng loạt với nội dung mà người nhận khơng mong đợi, khơng muốn xem, hay chứa những nội
Trang 1Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG
ĐINH QUANG THÁI
NGHIÊN CỨU PHƯƠNG PHÁP LỌC SPAM VÀ ỨNG DỤNG TRONG BẢO MẬT HỆ THỐNG THƯ ĐIỆN TỬ TẠI
SỞ THƠNG TIN VÀ TRUYỀN THƠNG TỈNH NAM ĐỊNH
nh
Mã số: 60 48 01
TS Nguyễn Ngọc Cương
Thái Nguyên - 2013
Trang 2Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
LỜI CAM ĐOAN
Tơi xin cam đoan rằng, đây là cơng trình nghiên cứu của tơi trong đĩ cĩ sự giúp đỡ tận tình của thầy hướng dẫn và các thầy cơ tại Học viện An ninh nhân dân,
sự hỗ trợ của các đồng nghiệp tại Sở Thơng tin và Truyền thơng Nam Định Các nội dung nghiên cứu và kết quả trong đề tài này là hồn tồn trung thực
Trong luận văn, tơi cĩ tham khảo đến một số tài liệu của một số tác giả đã được liệt kê tại phần Tài liệu tham khảo ở cuối luận văn
Thái Nguyên, ngày 15 tháng 7 năm 2013
Tác giả
ĐINH QUANG THÁI
Trang 3Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
LỜI CẢM ƠN
Để hồn thành chương trình Cao học và viết luận văn này, tơi đã nhận được
sự hướng dẫn, giúp đỡ và gĩp ý nhiệt tình của quý thầy cơ trường Đại học Cơng nghệ Thơng tin và Truyền thơng Thái Nguyên
Trước hết, tơi xin chân thành cảm ơn đến quý thầy cơ trường Đại học Cơng nghệ Thơng tin và Truyền thơng - Đại học Thái Nguyên, các thầy cơ Học viện An ninh nhân dân, đặc biệt là những thầy đã tận tình dạy bảo cho tơi trong suốt thời gian học tập tại trường
Tơi xin gửi lời biết ơn sâu sắc đến Tiến sĩ Nguyễn Ngọc Cương - Học viện
An ninh nhân dân đã dành rất nhiều thời gian và tâm huyết hướng dẫn nghiên cứu
và giúp tơi hồn thành luận văn tốt nghiệp
Nhân đây, tơi xin chân thành cảm ơn Ban giám hiệu trường Đại học Cơng nghệ Thơng tin và Truyền thơng đã tạo rất nhiều điều kiện để tơi học tập và hồn thành tốt khĩa học
Mặc dù tơi đã cĩ nhiều cố gắng hồn thiện luận văn bằng tất cả sự nhiệt tình
và năng lực của mình, tuy nhiên khơng thể tránh khỏi những thiếu sĩt, tơi rất mong nhận được những đĩng gĩp quí báu của quý thầy cơ và các bạn
Lời cảm ơn sau cùng tơi xin dành cho gia đình và những người bạn đã hết lịng quan tâm và tạo điều kiện tốt nhất để tơi hồn thành luận văn tốt nghiệp này!
Tơi xin chân thành cảm ơn!
Thái Nguyên, ngày 15 tháng 7 năm 2013
Học viên thực hiện Đinh Quang Thái - Lớp CK10A Trường Đại học CNTT&TT – Đại học Thái Nguyên
Trang 4Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC HÌNH v
DANH MỤC CÁC BẢNG vii
DANH MỤC TỪ VIẾT TẮT viii
MỞ ĐẦU 1
Chương 1: TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ SPAM 3
1.1 Các khái niệm cơ bản 3
1.1.1 Thư điện tử là gì? 3
1.1.2 Cấu trúc chung của một địa chỉ thư điện tử 3
1.1.3 Sự khác biệt giữa thư điện tử với thư bưu chính 3
1.1.4 Thư rác là gì? 4
1.1.5 Các loại thư rác 5
1.1.6 Tác hại của thư rác 6
1.2 Phương thức trao đổi thơng tin qua dịch vụ Email 7
1.2.1 Mơ hình trao đổi thơng tin dựa trên email 7
1.2.2 Giao thức và ngơn ngữ sử dụng 9
1.3 Các phần mềm lọc nội dung mail ở trong và ngồi nước 11
Chương 2: CÁC PHƯƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM 15
2.1 Các kỹ thuật gửi mail nặc danh và Bomb Mail 15
2.1.1 Thu thập địa chỉ email 15
2.1.2 Tìm kiếm các máy tính trên Internet cho phép gửi thư 18
2.1.3 Boml Mail 20
2.2 Mơ hình và nguyên lý hoạt động của hệ thống lọc nội dung Mail 22
2.2.1 Mơ hình hệ thống lọc mail 22
2.2.2 Kiến trúc tổng quan của hệ thống lọc mail 24
2.2.3 Các kỹ thuật lọc nội dung thơng tin qua mail 26
2.2.4 Kỹ thuật lọc Spam 30
Chương 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM VÀ ĐỀ XUẤT CÁC GIẢI PHÁP PHỊNG CHỐNG SPAM 44
3.1 Xây dựng chương trình lọc spam cho các ứng dụng thư điện tử 44
3.1.1 Nhiệm vụ của chương trình 44
3.1.2 Các cơng nghệ sử dụng 44
Trang 5Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
3.1.3 Các chức năng chính của chương trình 45
3.2 Thử nghiệm hệ thống thư điện tử tại Sở Thơng tin và Truyền thơng tỉnh Nam Định 46
3.2.1 Khảo sát việc sử dụng mail tại Sở Thơng tin và Truyền thơng tỉnh Nam Định 46
3.2.2 Dữ liệu thử nghiệm 47
3.2.3 Phương pháp thử nghiệm 48
3.2.4 Thử nghiệm chương trình 49
3.2.4 So sánh phương pháp phân loại 55
3.2.5 Lựa chọn độ dài và số lượng đặc trưng 56
3.2.6 Phân biệt theo ngơn ngữ trước khi lọc 58
3.2.7 Nhận xét kết quả thử nghiệm 58
3.3 Đề xuất các giải pháp phịng chống spam 59
3.3.1 Giải pháp phịng chống tại mail server 59
3.3.2 Giải pháp phịng chống tại mail client 65
3.3.3 Giải pháp phía người sử dụng mail 67
KẾT LUẬN CHUNG 70
TÀI LIỆU THAM KHẢO 71
Trang 6Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
DANH MỤC CÁC HÌNH
Hình 1.1: Mơ hình lưu chuyển thư điện tử qua Internet 7
Hình 1.2: Mơ hình gửi và nhận thư điện tử sử dụng giao thử SMTP 10
Hình 1.3: Mơ hình gửi và nhận thư điện tử dùng giao thức IMAP và POP 11
Hình 1.4: Phần mềm lọc nội dung mail 12
Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng 16
Hình 2.2: Một số website của các cơng ty gửi thư rác 18
Hình 2.3: Minh họa cách gửi thư rác qua mail server (open relay) 19
Hình 2.4: Các phương án bộ trí hệ thống lọc thư 23
Hình 2.5: Kiến trúc chung của hệ thống lọc thư 25
Hình 2.6: Mơ hình tổng quát lọc thư rác Tiếng Việt 29
Hình 2.7: Lưu lượng thư trong một mơi trường SPF 34
Hình 2.8: Cách thức làm việc của SPF 34
Hình 2.9: Lọc thư rác bằng phương pháp chặn IP 35
Hình 2.10: Thơng tin header của email 42
Hình 3.1: Nhiệm vụ của chương trình lọc thư rác 44
Hình 3.2: Chức năng của phần mềm lọc thư rác 46
Hình 3.3: Giao diện form thiết lập thơng số huấn luyện hệ thống 49
Hình 3.4: Lựa chọn thư mục chứa các thư mẫu cho việc huấn luyện 50
Hình 3.5: Giao diện form đã tiến hành huấn luyện tập mẫu thư thường 51
Hình 3.6: Giao diện thiết lập danh sách hịm thư cần chặn lọc 51
Hình 3.7: Cửa sổ xác nhận việc cập nhật danh sách hịm thư cần chặn lọc 52
Hình 3.8: Giao diện thiết lập từ khĩa cần chặn lọc 52
Hình 3.9: Cửa sổ xác nhận việc cập nhật danh sách từ khĩa cần chặn lọc 52
Hình 3.10: Xác nhận sử dụng tính năng lọc thư rác của chương trình 53
Hình 3.11: Hịm thư khi chưa chạy chương trình lọc thư rác 53
Hình 3.12: Thống kê kết quả lọc thư rác của chương trình 54
Hình 3.13: Thư rác đã được đánh dấu trong trình xem thư Outlook 54
Trang 7Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Hình 3.14: Giao diện tab giới thiệu chương trình 55
Hình 3.15: Xác nhận việc thốt khỏi chương trình 55
Hình 3.16: Độ chính xác phân loại chung với số lượng đặc trưng khác nhau 57
Hình 3.17: Độ chính xác phân loại với các quy trình lọc khác nhau 59
Hình 3.18: Phương thức hoạt động của SPF 60
Hình 3.19: Phương thức hoạt động của SPF động 62
Hình 3.20: Phân bố số lượng cặp (tên miền, IP) theo thơi gian 64
Hình 3.21: Hiệu quả phương pháp SPF động 64
Trang 8Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
DANH MỤC CÁC BẢNG
Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống 4
Bảng 1.2: Thống kê các dạng thư rác tại máy chủ 6
Bảng 3.1 Bộ dữ liệu thử nghiệm 48
Bảng 3.2 Độ chính xác phân loại với các phương pháp phân loại khác nhau 56
Bảng 3.3 Kết quả phân loại với độ dài đặc trưng - từ khác nhau 57
Bảng 3.4 : Bảng dữ liệu mẫu sử dụng phương pháp SPF động 63
Trang 9Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
DANH MỤC TỪ VIẾT TẮT
SPAM: Thư rác
EMAIL: Thư điện tử
SMTP: Simple Mail Transfer Protocol
IMAP: Internet Message Access Protocol
POP: Post Office Protocol
Trang 10Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
MỞ ĐẦU
Thư rác (spam) là thư điện tử được gửi hàng loạt với nội dung mà người nhận
khơng mong đợi, khơng muốn xem, hay chứa những nội dung khơng liên quan đến người nhận và thường được sử dụng để gửi thơng tin quảng cáo Do cĩ giá thành tương đối thấp so với các phương pháp quảng cáo khác, thư rác hiện chiếm một tỷ
lệ lớn và ngày càng tăng trong tổng số thư điện tử được gửi qua Internet Sự xuất hiện và gia tăng thư rác khơng những gây khĩ chịu và làm mất thời gian của người nhận mà cịn ảnh hưởng tới đường truyền Internet và làm chậm tốc độ xử lý của máy chủ thư điện tử, gây thiệt hại lớn về kinh tế
Để loại bỏ hoặc giảm thiểu ảnh hưởng của thư rác, nhiều cách tiếp cận khác nhau đã được nghiên cứu và sử dụng Giải pháp đấu tranh với thư rác rất đa dạng, bao gồm từ các cố gắng về pháp lý trong việc xây dựng luật ngăn chặn phát tán thư rác cho tới những giải pháp kỹ thuật nhằm phát hiện và ngăn chặn thư rác trong những giai đoạn khác nhau của quá trình tạo và phát tán thư Trong số giải pháp
được sử dụng, lọc thư theo nội dung đang là một trong những giải pháp được sử
dụng rộng rãi và cĩ triển vọng nhất Lọc thư theo nội dung là phương pháp phân tích nội dung thư để phân biệt thư rác với thư bình thường, kết quả phân tích sau đĩ được sử dụng để quyết định chuyển tiếp thư đến người nhận hay khơng (trong phạm
vi nghiên cứu này, nội dung thư được giới hạn là những nội dung trình bày dưới dạng văn bản)
Do việc lọc theo nội dung địi hỏi phân tích phần văn bản chứa trong tiêu đề hay nội dung thư, thuật tốn lọc nội dung cần được xây dựng phù hợp với ngơn ngữ
mà thư sử dụng Hiện nay, nhiều thuật tốn lọc nội dung hiệu quả đã được nghiên cứu và sử dụng cho thư viết bằng tiếng Anh
Trong vịng vài năm gần đây, việc sử dụng Internet nĩi chung và thư điện tử nĩi riêng ngày càng phổ biến tại Việt nam Một trong những hệ quả của sự phát triển này là ngày càng cĩ nhiều thư rác gửi tới các tài khoản thư điện tử tại Việt nam (tài khoản cĩ đuơi vn) Những thư rác này bao gồm cả thư viết bằng tiếng Anh và thư viết bằng tiếng Việt Việc xuất hiện ngày càng nhiều thư rác tiếng Việt đặt ra yêu cầu cấp thiết phải cĩ những phương pháp lọc thư cĩ thể xử lý được thư rác loại này
Trang 11Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Do các thuật tốn lọc thư thơng dụng mới chỉ được nghiên cứu và thử nghiệm cho tiếng Anh, để cĩ thể sử dụng giải pháp lọc nội dung cho thư tiếng Việt cần nghiên cứu làm rõ hiệu quả của thuật tốn khi phân tích nội dung thư viết bằng tiếng Việt Bên cạnh đĩ cần thực hiện những cải tiến cho phù hợp khi chuyển từ phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt Để giải quyết những vấn đề vừa nêu, trong phạm vi đề tài này, tơi tiến hành nghiên cứu một số giải pháp lọc nội dung cho thư rác tiếng Việt và tiếng Anh Nội dung nghiên cứu bao gồm thử nghiệm làm rõ khả năng lọc thư tiếng Việt, đề xuất và phân tích so sánh các cải tiến với thuật tốn, thử nghiệm trên dữ liệu thực Sau khi thử nghiệm so sánh, giải pháp lọc thư cĩ hiệu quả cao sẽ được cài đặt trong một bộ lọc thư cĩ khả năng tích hợp vào máy chủ thư điện tử
Luận văn hồn thành gồm 68 trang và được bố cục thành 3 chương với lời
mở đầu và phần kết luận chung:
Phần mở đầu trình bày vắn tắt ý nghĩa, tính cấp thiết của đề tài, nêu nên
mục tiêu đề tài, xác định các bài tốn nghiên cứu và giới thiệu tĩm tắt các chương trong luận văn
Chương 1 Tổng quan về thư điện tử và spam Trong chương này trình
bày các khái niệm về thư tín truyền thống, thư điện tử, spam và mơ hình, ngơn ngữ
và giao thức sử dụng của thư điện tử, các phần mềm lọc nội dung thư hiện nay
Chương 2 Các phương pháp gửi và kỹ thuật lọc Email – Spam Trình
bày kỹ thuật gửi mail nặc danh, mơ hình và nguyên lý hoạt động của hệ thống lọc nội dung mail, Các kỹ thuật lọc nội dung thơng tin qua mail
Chương 3 Xây dựng chương trình thử nghiệm và đề xuất các giải pháp phịng chống spam Trình bày các nội dung cài đặt thử nghiệm, cơng nghệ áp dụng
và kết quả chương trình lọc spam cho các ứng dụng thư điện tử tại Sở Thơng tin và Truyền thơng tỉnh Nam Định Đề xuất các giải pháp phịng chống spam
Phần kết luận chung nêu tĩm tắt các kết quả đạt được của luận văn
Trang 12Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Chương 1: TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ SPAM
Trong chương này trình bày các khái niệm về thư tín truyền thống, thư điện
tử, spam và mơ hình, ngơn ngữ và giao thức sử dụng của thư điện tử, các phần mềm lọc nội dung thư hiện nay.
1.1 Các khái niệm cơ bản
1.1.1 Thư điện tử là gì?
Thư điện tử (Email – Electronic Mail) là một hệ thống chuyển nhận thư qua các mạng máy tính Thư điện tử (Email) là một trong những phương thức trao đổi thơng tin phổ biến trong suốt quá trình phát triển Internet Ban đầu email chỉ là những văn bản text đơn giản, mức độ bảo mật cũng được nâng cao dần lên, khi đĩ email được mã hĩa dưới nhiều dạng Email là phương tiện thơng tin tốc độ cao Mẫu thư cĩ thể được gửi đi dưới nhiều dạng, cĩ thể ở dạng văn bản text thơng thường, hoặc cĩ thể ở dạng mã hĩa, và nĩ được chuyển qua các mạng máy tính, đặc biệt là mạng Internet
1.1.2 Cấu trúc chung của một địa chỉ thư điện tử
Một địa chỉ thư điện tử bao gồm : tên[email]@tên_miền Trong đĩ:
- Tên_email : là định danh của hịm thư điện tử, thành phần này do người sử dụng tự đặt ra khi khởi tạo hịm thư cho mình
- Tên_miền : là tên miền cung cấp dịch vụ thư điện tử, ví dụ như yahoo.com, gmail.com,…
1.1.3 Sự khác biệt giữa thư điện tử với thư bưu chính
Giữa thư điện tử và thư bưu chính (thư tín truyền thống) cĩ những điểm tương đồng, song cĩ những điểm khác biệt được thể hiện qua bảng so sánh:
Trang 13Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Khả năng soạn thảo Chậm (viết giấy) Nhanh (viết bằng trình
soạn thảo được hỗ trợ) Mức độ thất lạc thư Cao Thấp (do đường truyền
lỗi) Thư tấn cơng Gửi kèm vũ khí sinh
học (Ít xảy ra)
Gửi kèm mã độc : Worm, Virus, … (Thường xuyên)
Thiệt hại do bị tấn cơng Nặng Tùy vào mức độ tấn cơng Khả năng chuyển tiếp thư Cĩ Cĩ
Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống
1.1.4 Thư rác là gì?
Hiện nay chưa cĩ một định nghĩa hồn chỉnh và chặt chẽ về thư rác Cĩ quan điểm chỉ coi thư rác là những thư quảng cáo khơng được yêu cầu (Unsolicited Commercial Email - UCE), cĩ quan điểm cĩ thư rác với nghĩa rộng hơn, bao gồm
cả thư quảng cáo, thư nhũng lạm (quấy rối), và những thư cĩ nội dung khơng lành mạnh (Unsolicited Bulk Email – UBE) Dưới đây sẽ đưa ra một định nghĩa thơng dụng nhất về thư rác và giải thích các đặc điểm của nĩ để phân biệt thư rác với thư thơng thường
Thư rác (spam) là những bức thư điện tử khơng yêu cầu, khơng mong muốn
và được gửi hàng loạt tới nhiều người nhận “Thư khơng yêu cầu” ở đây nghĩa là người nhận thư khơng yêu cầu người gửi gửi bức thư đĩ “Thư được gửi hàng loạt” nghĩa là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi cho nhiều người khác và các bức thư này cĩ nội dung tương tự nhau
Trang 14Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Một bức thư được gọi là thư rác chỉ khi nĩ là thư khơng yêu cầu và được gửi hàng loạt Nếu thư rác chỉ là thư khơng mong muốn thì nĩ cĩ thể là những bức thư làm quen, được gửi lần đầu tiên, cịn nến thư rác chỉ là thư được gửi hàng loạt thì nĩ
cĩ thể là những bức thư gửi cho khách hành của các cơng ty, các nhà cung cấp dịch
vụ
Như định nghĩa ở trên, thư rác là thư khơng yêu cầu và được gửi hàng loạt Nhưng yếu tố quan trọng nhất để phân biệt thư rác với thư thơng thường phải là ở nội dung bức thư Khi một người nhận được thư rác, người đĩ khơng thể xác định được thư cĩ được gửi hàng loạt hay khơng nhưng cĩ thể nĩi chính xác đĩ là thư rác sau khi xem nội dung thư Đặc điểm này chính là cơ sở cho giải pháp phân loại thư rác bằng cách phân tích nội dung thư
1.1.5 Các loại thư rác
Đa số thư rác là thư quảng cáo cho hàng hố hoặc dịch vụ Tuy nhiên cũng
tồn tại một lượng lớn thư rác mang những nội dung khác Các thư rác khơng mang nội dung quảng cáo hàng hố hay dịch vụ cĩ thể phân chia thành:
Thư cĩ nội dung chính trị: do các tổ chức hay cá nhân hoạt động chính trị
gửi trực tiếp tới người dùng thư điện tử để phục vụ mục đích quảng bá, tuyên truyền hay tạo quan hệ trực tiếp Hiện nay tại Việt nam, thư rác cĩ nội dung chính trị hầu hết là của các tổ chức phản động ngồi nước gửi về và cần đặc biệt ngăn chặn
Thư từ thiện: do các tổ chức hay cá nhân hoạt động từ thiện gửi với nội dung
yêu cầu quyên gĩp hay trợ giúp Người gửi thư dạng này cĩ thể khơng nhận thức được họ đang gửi thư rác do cĩ sự biện hộ từ mục đích gửi thư
Thư cĩ nội dung tơn giáo: dùng để tuyên truyền quảng bá cho các tổ chức
hoặc hoạt động tơn giáo
Trong số thư những thư quảng cáo, một số dạng hàng hố và dịch vụ chiếm
tỷ trọng đặc biệt lớn Dưới đây là kết quả phân tích thống kê các thư rác gửi qua máy chủ hotmail.com trong năm 2003 và 2004 do Microsoft thực hiện [Hulten - trends]
Trang 15Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Bảng 1.2: Thống kê các dạng thư rác tại máy chủ
Sản phẩm quảng cáo Năm 2003 Năm 2004 Quảng cáo liên quan đến tình dục (khơng đồ hoạ) 17% 34%
sự phát triển Internet nĩi chung và người sử dụng thư điện tử nĩi riêng Cĩ thể kể ra một số tác hại của thư rác:
- Thư rác gây thiệt hại về kinh tế cho người nhận thư trong trường hợp người nhận thư phải trả tiền cho lượng thơng tin truyền qua mạng
- Thư rác cĩ thể làm đầy hộp thư người nhận và do vậy làm thất lạc những thư bình thường đến sau
Trang 16Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
- Thư rác làm tốn thời gian do người nhận phải mở thư và xố thư khỏi hộp thư của mình
- Thư rác gây tâm lý xấu đối với người sử dụng thư điện tử Theo thống
kê tại http://www.pewinternet.org, 25% người sử dụng thư điện tử coi thư rác là trở ngại lớn khi sử dụng dịch vụ Internet này
- Thư rác chiếm một phần đường truyền Internet và làm tốn thời gian
xử lý của máy chủ
1.2 Phương thức trao đổi thơng tin qua dịch vụ Email
1.2.1 Mơ hình trao đổi thơng tin dựa trên email
Dịch vụ thư điện tử sử dụng giao thức SMTP (Simple Mail Transfer Protocol) trong họ giao thức TCP/IP
Hình 1.1: Mơ hình lưu chuyển thư điện tử qua Internet
Trang 17Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Hoạt động của hệ thống email hiện nay cĩ thể dược minh họa qua phân tích một thí dụ như sau:
1 Nguyễn dùng MUA của mình để soạn một lá thư cĩ địa chỉ người nhận là Trần với địa chỉ là Tran@b.org Nguyễn nhấn nút Send và phần mềm thư điện tử của Nguyễn áp dụng SMTP để gửi mẫu thơng tin (lá thư) đến MTA, hay máy chủ thư điện tử, của Nguyễn Trong thí dụ thì máy chủ này là smtp.a.org được cung cấp
từ dịch vụ Internet của Nguyễn
2 MTA này sẽ đọc địa chỉ chỗ nhận (tran@b.org) và dựa vào phần tên miền
nĩ sẽ tìm hỏi địa chỉ của tên miền này, nơi cĩ máy chủ sẽ nhận email gửi đến, qua
Hệ thống Tên miền
3 Máy chủ DNS của b.org là ns.b.org sẽ trả lời về một bản ghi trao đổi thư
từ, đây là bảng ghi chỉ ra cách thức làm thế nào định tuyến cho email này Trong thí
dụ thì mx.b.org là máy chủ từ dịch vụ cung ứng Internet của Trần
4 smtp.a.org gửi mẫu thơng tin tới mx.b.org dùng giao thức SMTP, điều này
sẽ phân phối lá thư đến hộp thư của Trần
5 Khi đọc Trần ra lệnh nhận thư trên máy (MUA) của Trần, điều này tạo ra việc lấy về mẫu thơng tin bằng cách áp dụng giao thức POP3
Trong trường hợp Nguyễn khơng cĩ MUA mà chỉ dùng Webmail chẳng hạn thì bước 1 sẽ khơng xảy ra tức là MTA của Nguyễn sẽ làm việc trực tiếp Tưong tự cho trường hợp Trần khơng cĩ MUA riêng
Trước đây, nếu một MTA khơng thể gửi tới đích thì nĩ cĩ thể ít nhất ngừng lại ở chỗ gần với chỗ nhận Sự ngừng này sẽ tạo cơ hội để máy đích cĩ thể nhận về các mẫu thơng tin trong thời gian trễ hơn Nhiều MTA sẽ chấp nhận tất cả mẫu thơng tin từ người gửi bất kì và tìm mọi cách để phân nĩ về đến máy đích Những MTA như vậy gọi là những ngưng đọng thư mở (open mail relays) Điều này khá cần thiết vì sự chất lượng liên lạc của hệ thống Internet lúc đĩ cịn yếu Ngày nay,
do việc lợi dụng trên cơ chế hoạt động của hệ thống thư điện tử nhiều người đã gửi
ra các loại thư vơ bổ Như là hậu quả, rất ít MTA ngày nay cịn chấp nhận các
Trang 18Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
ngưng đọng thư mở Bởi vì các thư như vậy rất cĩ thể là các loại thư nhũng lạm(thư rác)
Dịch vụ thư điện tử hoạt động offline Các yêu cầu gửi thư đi khơng địi hỏi phải xử lý ngay lập tức Khi người A muốn chuyển một bức thư tới cho người B, hệ thống sẽ chuyển thư vào vùng Spool, cùng với các thơng tin về người gửi, người nhận (được đính vào phần Header của thư) sẽ được chứa trong vùng này Hệ thống gửi thư tự động bằng một chương trình phần mềm thư điện tử như Outlook Express, Mozila Thunderbird, hay các chương trình Webmail như Yahoo!, Gmail,… Đây là những chương trình gửi thư khơng đồng bộ Chương trình này sẽ xác định được địa chỉ IP của máy cần gửi qua việc phân tích Header của thư, và tạo lập một kết nối tới máy đĩ Nếu như tạo kết nối thành cơng, chương trình sẽ chuyển thư tới vùng Spool của máy nhận Nếu kết nối tới máy nhận khơng thành cơng, chương trình sẽ lưu trữ lại những thư chưa được chuyển đi đĩ và sẽ gửi lại đến khi tạo dựng được kết nối Nếu bức thư tồn tại quá lâu (khoảng 2-3 ngày), chương trình sẽ gửi trả bức thư này cho người gửi
Thư điện tử ban đầu chỉ nhằm mục đích trao đổi thơng tin giữa những người
sử dụng với nhau Thư điện tử hiện đại được phát triển các dịch vụ kèm theo, đĩ là các dịch vụ thư điện tử như NameServer (tra cứu các địa chỉ trên mạng), ArchiveServer (cho phép người dùng tìm kiếm và tải về những tập tin dùng chung) Các thư này được gửi tới các Server, Server phân tích nội dung thư, thực hiện các yêu cầu rồi gửi trả lại kết quả cho người gửi yêu cầu cũng bằng hình thức gửi thư điện tử
1.2.2 Giao thức và ngơn ngữ sử dụng
- SMTP (Simple Mail Transfer Protocol): giao thức chuyển thư đơn giản SMTP là phương thức vận chuyển các thư điện tử từ máy chủ này sang máy chủ khác cho đến địa chỉ người nhận Các máy chủ sử dụng giao thức này để chuyển tiếp thư tới máy khách, và máy khách cũng sử dụng giao thức này gửi thư trung
Trang 19Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
chuyển qua các máy chủ Các thư điện tử được gửi đến các máy khách qua SMTP,
và các máy này sử dụng giao thức POP, IMAP để nhận thơng điệp này
Hình 1.2: Mơ hình gửi và nhận thư điện tử sử dụng giao thử SMTP
- IMAP (Internet Message Access Protocol) : giao thức nhận thơng điệp từ Internet của các máy khách Người dùng cĩ thể truy xuất và quản lý thư từ máy chủ Giao thức cho phép người sử dụng đọc, xĩa, sửa, tìm kiếm thư trong hịm thư mà khơng cần phải tải thư về Phiên bản mới nhất là IMAP4
Trang 20Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Hình 1.3: Mơ hình gửi và nhận thư điện tử dùng giao thức IMAP và POP
- POP (Post Office Protocol) : giao thức được dùng trên các máy trạm (MUA) tìm kiếm các thư điện tử từ một máy MTA (máy chủ mail) Giao thức này cho phép người dùng đăng nhập vào máy chủ mail với tài khoản đã đăng kí để tải thư từ máy chủ về máy cục bộ Phiên bản mới nhất là POP3
- Giao thức HTTP khơng phải là một giao thức dành cho thơng tin liên lạc email, nhưng nĩ cĩ thể được sử dụng để truy cập hộp thư của bạn Nĩ cũng cịn được gọi là thư điện tử dựa trên web, giao thức này cĩ thể được sử dụng để soạn hoặc truy lục email từ một tài khoản của bạn Hotmail là một ví dụ của việc sử dụng HTTP như là một giao thức thư điện tử
1.3 Các phần mềm lọc nội dung mail ở trong và ngồi nước
Hiện nay, một trong những khĩ khăn của người sử dụng thư điện tử là khơng thể mở email của họ vì vơ số các thư rác chất đầy trong hộp thư đến của họ Người
sử dụng cĩ thể dễ dàng nhận ra và phân biệt các thư rác,tuy nhiên để loại bỏ hết các thư rác bằng cách xĩa thủ cơng họ sẽ rất mất thời gian và cơng sức Hệ thống lọc thư rác ra đời giúp làm giảm tối thiểu cơng việc này đối với người sử dụng Phần mềm, tiện ích lọc thư rác cĩ thể làm giảm đáng kể số lượng thư rác gửi đến hộp thư của người dùng
Trang 21Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Hình 1.4: Phần mềm lọc nội dung mail
Hiện tại cĩ rất nhiều phần mềm lọc mail được cung cấp miễn phí, tuy nhiên tính năng cịn hạn chế và chủ yếu là lọc nội dung thư tiếng Anh Một số phần mềm lọc mail miễn phí:
- POPFile - Free Spam Filter
- Spamfence - Free Spam Filter
- Spamihilator - Free Spam Filter
- Spamato - Free Spam Filter
- SpamBayes - Free Spam Filter
- SpamExperts Desktop - Free Spam Filter
- K9 - Free Spam Filter
- Cactus Spam Filter - Free Spam Filter
- SpamRIP - Free Spam Filter
- BullGuard Spamfilter - Free Spam Filter
- …
Những tiêu chí để đánh giá một phần mềm lọc thư rác tốt:
Phần mềm lọc thư rác tốt nhất là cho phép dễ dàng tùy chỉnh bởi người dùng máy tính của tất cả các cấp Các tính năng quan trọng nhất của bất kỳ phần mềm bộ
Trang 22Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
lọc thư rác là khả năng đáng tin cậy ngăn chặn và ngăn chặn thư rác Những tiêu chí
sử dụng để đánh giá phần mềm lọc thư rác:
Chặn, lọc:
Đây là tiêu chí đầu tiên và quan trọng để đánh giá phần mềm lọc thư rác Phần mềm lọc thư rác nên được trang bị với nhiều khả năng ngăn chặn thư rác lây nhiễm vào hộp thư đến của người dùng Tốt nhất phần mềm lọc cĩ cả hai danh sách đen và trắng, thiết lập nhạy cảm, dựa vào cộng đồng lọc, kỹ thuật thách thức và phản ứng, và cách ly thiết lập Các tính năng bổ sung để đánh giá địa chỉ IP đang chặn, máy chủ, địa chỉ email, và mã quốc gia
Bảo vệ:
Ứng dụng chặn thư rác nên cĩ khả năng bảo vệ nhiều tài khoản người dùng với một cài đặt duy nhất Hơn nữa, chặn thư rác phải bảo vệ người dùng từ email cĩ chứa sâu, vi-rút, Trojans, phần đính kèm với nhúng keylogger và phần mềm độc hại khác Ngồi ra, phần mềm lọc thư rác mạnh mẽ cĩ thể xác định email HTML cĩ chứa cuộc tấn cơng lừa đảo trực tuyến nhằm mục đích thu thập thơng tin cá nhân nhạy cảm của người sử dụng
Quy tắc:
Phần mềm bộ lọc thư rác nên cung cấp cho người dùng khả năng để chỉnh sửa cài đặt được xác định trước các quy tắc cũng như tạo ra các quy định mới Phần mềm lọc thư rác tốt phải cĩ khảu năng thích ứng với nhu cầu của người sử dụng
Khả năng tương thích:
Khi lựa chọn một phần mềm chặn thư rác, cần phải đánh giá nếu phần mềm lọc thư rác đĩ cĩ tương thích với của chương trình đọc thư của người sử dụng hiện tại hay khơng Người sửcác chương trình duyệt email phổ biến bao gồm Thunderbird, Outlook, Outlook Express và các ứng dụng khác của POP3/SMPT Phần mềm lọc thư rác cũng nên hỗ trợ một số các nhà cung cấp dịch vụ webmail như Gmail, Yahoo, Hotmail và những nhà cung cấp dịch vụ khác
Do các thuật tốn lọc thư thơng dụng mới chỉ được nghiên cứu và thử nghiệm cho tiếng Anh, để cĩ thể sử dụng giải pháp lọc nội dung cho thư tiếng Việt
Trang 23Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
cần nghiên cứu làm rõ hiệu quả của thuật tốn khi phân tích nội dung thƣ viết bằng tiếng Việt Bên cạnh đĩ cần thực hiện những cải tiến cho phù hợp khi chuyển từ phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt Để giải quyết những vấn đề vừa nêu, trong phạm vi đề tài này, chúng tơi tiến hành nghiên cứu một số giải pháp lọc nội dung cho thƣ rác tiếng Việt và tiếng Anh Nội dung nghiên cứu bao gồm thử nghiệm làm rõ khả năng lọc thƣ tiếng Việt, đề xuất và phân tích so sánh các cải tiến với thuật tốn, thử nghiệm trên dữ liệu thực Sau khi thử nghiệm so sánh, giải pháp lọc thƣ cĩ hiệu quả cao sẽ đƣợc cài đặt trong một bộ lọc thƣ cĩ khả năng tích hợp vào máy chủ thƣ điện tử
Trang 24Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Chương 2: CÁC PHƯƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM
Trình bày kỹ thuật gửi mail nặc danh, mơ hình và nguyên lý hoạt động của
hệ thống lọc nội dung mail, Các kỹ thuật lọc nội dung thơng tin qua mail
2.1 Các kỹ thuật gửi mail nặc danh và Bomb Mail
Để phát tán thư rác, những người gửi thư rác phải cĩ được những điều kiện sau: một là cĩ danh sách địa chỉ email nhận thư, hai là cĩ các server cho phép gửi thư, ba là phải soạn được nội dung thư theo yêu cầu quảng cáo và qua mặt được các
bộ lọc nội dung, cuối cùng cần cĩ những chương trình để gửi thư đi
2.1.1 Thu thập địa chỉ email
Để gửi thư rác đi, người gửi thư rác cần phải cĩ một danh sách các địa chỉ email cần gửi Danh sách địa chỉ email này cĩ thể thu thập được từ nhiều nguồn khác nhau, họ cĩ thể mua từ các trang web thương mại cĩ nhiều thành viên đăng ký hoặc sử dụng các kỹ thuật dưới đây để cĩ được địa chỉ email của đối tượng cần gửi thư
Người gửi thư rác (hoặc đối tác của họ) thường tung ra các trang web giả để bẫy người dùng gửi địa chỉ email cho họ Kỹ thuật này được gọi là Phishing email
Trang 25Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng
Người gửi thư rác cịn sử dụng các máy tìm kiếm chỉ để tìm kiếm địa chỉ email trên các trang web Các máy tìm kiếm này sẽ tìm kiếm những trang cĩ kí hiệu
“@” và sẽ tách địa chỉ email từ đĩ ra Những chương trình tìm kiếm email theo kiểu như vậy cịn được gọi là spambots
Danh sách các địa chỉ cũng cĩ thể được sinh tự động theo một cơ chế nào đĩ
để xác suất tồn tại của địa chỉ sinh tự động cĩ thể chấp nhận được Địa chỉ email thường được tạo ra nhờ kết hợp giữa các họ tên phổ biến với các domain nhiều người dùng và các con số cĩ nghĩa Ví dụ như địa chỉ email được sinh như sau:
Từ địa chỉ gốc là: nguyenvannam + @ + fpt.com.vn
Cĩ thể sinh ra các địa chỉ sau:
nguyenvannam1@fpt.com.vn, nguyenvannam2@fpt.com.vn,
nguyenvannam1982@fpt.com.vn, nguyenvannam1983@fpt.com.vn,
Để xác định một địa chỉ email cĩ tồn tại hay khơng, những người gửi thư rác
sẽ gửi một bức thư tới tất cả các hịm thư trong danh sách sinh tự động Nếu hịm thư đĩ tồn tại và chủ nhân của nĩ mở bức thư đĩ ra thì sẽ cĩ một chương trình được
Trang 26Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
kích hoạt thơng báo về sự tồn tại của địa chỉ cho người gửi thư rác Cách này cịn gọi là sinh địa chỉ email theo kiểu từ điển
Một số nguồn thu thập địa chỉ email của những kẻ phát tán thư rác
a Thu thập thơng tin qua Website:
Khi khách hàng hay người sử dụng truy cập vào một trang web được yêu cầu đăng ký tài khoản và khai báo các thơng tin cá nhân thì ngay lập tức các thơng tin cá nhân của người sử dụng (bao gồm cả địa chỉ email) sẽ được thu thập và ghi nhận vào cơ sở dữ liệu của Website và họ sẽ sử dụng các thơng tin cá nhân này cho các chiến dịch quảng cáo, tiếp thị trên Website của họ
Ngồi thơng tin về địa chỉ email thì các website này cịn thu thập thêm các thơng tin khác về khách hàng như:
- Thơng tin liên lạc
- Khách hàng biết được bạn qua đâu (quảng cáo, báo, cơng cụ tìm kiếm,…)
- Thơng tin giới tính, tuổi
- Lịch sử mua hàng (đã từng mua, chưa mua,…)
- Quy mơ cơng ty khách hàng
- Các dịch vụ khách hàng muốn nhận thơng tin (mà bạn cung cấp)
Tại sao họ lại cần những thơng tin này? Vì chúng giúp họ phân nhĩm danh
sách khách hàng để cĩ thể gửi những chiến dịch Email Marketing riêng tới từng
nhĩm cụ thể Đây là một phần trong các nguồn thu thập địa chỉ email của các kẻ phát tán thư rác
b.Thu thập từ mạng lưới quan hệ
Ngồi cách thu thập thơng tin trực tiếp từ các thơng tin đăng ký của khách hàng trên Website các spamer cịn tích cực tham gia trao đổi các thơng tin này với nhau thơng qua mạng lưới các quan hệ quen biết của họ từ đĩ làm cho danh sách địa chỉ email của khách hàng trong tay các spamer ngày càng dài thêm
c Tích hợp thêm form đăng ký:
Các kẻ phát tán thư rác cũng cĩ thể sử dụng các cách thức khác để thu thập thơng tin cá nhân và địa chỉ email của mọi người như tạo ra các phiếu khảo sát với
Trang 27Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
hứa hẹn phần thưởng hấp dẫn và yêu cầu người sử dụng đăng ký các thơng tin cá nhân chính xác để cĩ thể nhận giải thưởng (thường là khơng cĩ ai trúng thưởng), hoặc lồng vào trong các bản khảo sát sự hài lịng của khách hàng, trong form “vận chuyển” hàng hĩa khi khách hàng mua sản phẩm từ website, trong form “mua hàng” khi khách hàng mua sản phẩm từ website, trong các email xác nhận hay giao dịch, trong chứng nhận thanh tốn trực tuyến,…
d Cung cấp các bản báo cáo miễn phí, các tin tức hữu ích hoặc các phần mềm miễn phí
Các spamer cịn thu thập thơng tin cá nhân bằng cách yêu cầu khách ghé thăm điền thơng tin khi muốn download hay được tặng một sản phẩm miễn phí Đây
là một cách thường được dùng nhất khơng chỉ trên internet
e Nguồn địa chỉ từ các đơn vị “Mơi giới” danh sách:
Các nhà mơi giới thường là các cơng ty marketing thu thập và bán các thơng tin về khách hàng Các spamer sẽ mua các danh sách thơng tin này để sử dụng trong việc phát tán thư rác
2.1.2 Tìm kiếm các máy tính trên Internet cho phép gửi thư
Muốn gửi được thư rác, người gửi thư rác cần cĩ trong tay một danh sách các server để gửi thư đi Các server này cĩ thể là những server chuyên để gửi thư rác do người gửi thư rác sở hữu hoặc thuê, hoặc là những server bị người gửi thư rác lợi dụng
Hình ảnh sau đây là trang quảng cáo của một số cơng ty chuyên tung thư rác được Google liệt kê khi tìm kiếm hai từ “bulk mail”:
Hình 2.2: Một số website của các cơng ty gửi thư rác
Trang 28Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Người gửi thư rác thường khai thác lỗ hổng của những server cho phép chuyển tiếp thư (open relay) hoặc những proxy mở cho phép gửi thư (open proxy)
Hình 2.3: Minh họa cách gửi thư rác qua mail server (open relay)
Trên mạng Internet thường cĩ rất nhiều mail server cho phép chuyển tiếp thư Người gửi thư rác hay sử dụng các server này để chuyển tiếp thư rác vì khi đĩ
họ sẽ khĩ bị phát hiện hơn và chuyển được các gánh nặng về đường truyền sang cho các server đĩ Tuy nhiên những mail server dạng này thường sớm bị đưa vào danh sách đen (danh sách những địa chỉ IP bị chặn) của các bộ lọc thư rác và khơng thể tiếp tục gửi thư rác được nữa
Một loại server khác là các proxy cho phép gửi thư cũng được người gửi thư rác đặc biệt yêu thích Mục đích của những proxy này là giúp các trang web vượt qua được tường lửa (firewall) Một số proxy cho phép gửi thư và bất cứ ai cũng cĩ thể truy cập được Người gửi thư rác lợi dụng điểm này để phát tán thư rác Khi sử dụng những proxy này, Người gửi thư rác hầu như khơng bị phát hiện Mặt khác, việc lợi dụng này thường được lâu dài vì những người quản lý proxy khơng quan tâm tới việc proxy cĩ bị liệt kê trong danh sách đen của các bộ lọc hay khơng (vì mục đích chính của proxy khơng phải để gửi thư)
Open Mail Relay
Mạng trung gian
người dùng cục bộ
Gửi thư rác ISP Nhận thư rác
Trang 29Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Ngồi hai cách trên, những người gửi thư rác cịn thuê các máy tính “ma” để gửi thư rác Vì đây là các máy tính khơng được quản lý nên khĩ cĩ thể pháp hiện ra tác giả của các bức thư rác Thêm nữa việc thuê các máy tính này lại khá rẻ nên cĩ tới 40%-60% người gửi thư rác bắt đầu từ chiêu thức này
Khơng chỉ dừng lại ở việc đi thuê máy tính ma, những người gửi thư rác (và cũng là những hacker) cịn chiếm quyền kiểm sốt các máy tính hợp pháp để gửi thư rác Vào đầu năm 2005, Microsoft đã tiến hành khảo sát thử một máy tính bị nhiễm mã độc và đã bị hacker nắm quyền điều khiển từ xa, tức máy tính này đã trở thành một máy tính ma Kết quả khảo nghiệm cho thấy rằng chỉ trong vịng 20 ngày, máy tính ma này đã nhận được 5 triệu yêu cầu kết nối từ những người thư rác
và chính nĩ cũng đã gửi tới 18 triệu thư rác Trong những ngày cao điểm nhất, máy tính ma này đã nhận được đến 470.000 yêu cầu kết nối và khoảng 1,8 triệu thư rác
đã từ nĩ gửi đi
2.1.3 Boml Mail
Thư điện tử bị ném bom vì nhận được một lượng cực lớn các thư gửi đến
bằng cách sử dụng "zombie" trong mạng botnet(mạng lưới phân cấp các máy tính
bị tổn hại bởi phần mềm độc hại và dưới sự kiểm sốt của kẻ tấn cơng) Tương tự
như cách thức sử dụng trong gửi thư rác, nhưng những kẻ tấn cơng chỉ thị botnet này để gửi hàng triệu hoặc thậm chí hàng tỷ email, nhưng khơng giống như bình thường botnet gửi thư rác, các email được tất cả gửi đến chỉ một hoặc một vài địa chỉ mà kẻ tấn cơng mong muốn
Đây là loại tấn cơng là rất khĩ khăn để bảo vệ chống lại bởi vì các địa chỉ gửi
từ nhiều nguồn khác nhau và khả năng của mỗi máy tính zombie gửi một thơng điệp khác nhau hoặc sử dụng các kỹ thuật tàng hình để đánh bại bộ lọc thư rác
2.1.3.1 Xử lý khi bị bom thư
Xác định nguồn gốc của các bom thư điện tử/thư rác và cấu hình router của bạn (hoặc cĩ nhà cung cấp dịch vụ mạng của bạn cấu hình các bộ định tuyến) để ngăn chặn các gĩi tin đến từ địa chỉ đĩ
Trang 30Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Xem lại tiêu đề thư điện tử để xác định nguồn gốc thực sự của email Xem xét các thơng tin liên quan đến các bom thư điện tử/thư rác sau
cĩ liên quan tới chính sách và thủ tục của tổ chức của bạn
Thực hiện liên lạc với trang web xác định đã đăng các bình luận của bạn nhằm cảnh báo họ hoạt động
Đảm bảo cập nhật phiên bản mới nhất của phần mềm gửi thư điện tử của bạn và làm tăng khả năng ghi nhật ký là cần thiết để phát hiện hoặc cảnh báo bạn về các hoạt động
2.1.3.2 Cơng tác phịng chống bom thư
Thật khơng may, tại thời điểm này, khơng cĩ khơng cĩ cách nào để ngăn chặn bom thư hoặc gửi thư rác thực sự hiệu quả khác hơn là ngắt kết nối từ Internet,
và nĩ cũng khơng thể dự đốn nguồn gốc của các cuộc tấn cơng tiếp theo Vì thế cơng tác phịng chống là rất quan trọng, hãy lưu ý thực hiện các biện pháp dưới đây
để giảm thiểu tác hại của thư rác:
Phát triển các cơng cụ để giúp bạn nhận ra và trả lời bom thư và thư rác và do đĩ giảm thiểu tác động của các hoạt động đĩ Các cơng cụ nên tăng khả năng đăng nhập cũng như kiểm tra và thơng báo cho bạn
để nhận biết tin nhắn đến/gửi đi cĩ nguồn gốc từ cùng một người dùng hoặc các trang web tương tự trong một khoảng thời gian rất ngắn Một khi bạn xác định các hoạt động, bạn cĩ thể sử dụng các cơng cụ để loại bỏ các thư từ người dùng vi phạm hoặc các trang web Nếu trang web của bạn sử dụng một số lượng nhỏ tài nguyên của máy chủ thư điện tử, bạn cĩ thể cấu hình tường lửa của máy chủ để đảm bảo rằng kết nối SMTP từ bên ngồi tường lửa của bạn cĩ thể được giám sát bởi máy chủ thư điện tử của bạn Mặc dù điều này sẽ khơng ngăn chặn một cuộc tấn cơng, nhưng nĩ giảm thiểu số máy cĩ sẵn cho
kẻ xâm nhập tấn cơng dựa trên SMTP (cho dù cuộc tấn cơng đĩ là
Trang 31Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
một thư rác thư điện tử hoặc một nỗ lực để đột nhập vào một máy chủ)
Xem xét cấu hình máy chủ mail của bạn để cung cấp thư điện tử vào
hệ thống tập tin cĩ dung lượng giới hạn cho mỗi người dùng được kích hoạt
Giáo dục người dùng của bạn để gọi cho bạn về bom thư và gửi thư rác
Khơng phổ biến vấn đề bằng cách chuyển tiếp (hoặc trả lời) spammed thư điện tử
2.2 Mơ hình và nguyên lý hoạt động của hệ thống lọc nội dung Mail
2.2.1 Mơ hình hệ thống lọc mail
Một trong những bước quan trọng khi xây dựng hệ thống lọc thư rác là quyết định vị trí của hệ thống trong cả chu trình trao đổi thư điện tử Việc xác định vị trí của bộ lọc thư cĩ ảnh hưởng tới kiến trúc bộ lọc, các yêu cầu về tái huấn luyện, tốc
BỘ LỌC
MAIL SERVER THƯ MỚI
(a)
Trang 32Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Hình 2.4: Các phương án bộ trí hệ thống lọc thư
Theo cách bố trí trên hình 2.4, bộ lọc thư được tích hợp vào chương trình nhận thư điện tử (mail client) như Outlook Express và chạy trên máy khách (client) của người sử dụng Cách bố trí này thuận tiện cho việc xây dựng bộ lọc thư được cá nhân hố, cĩ thể phân biệt thư rác – thư thường theo tiêu chí đánh giá riêng của từng người sử dụng thư điện tử Ngồi ra, do chạy trên máy khách nên bộ lọc thư khơng gây quá tải đối với máy chủ thư điện tử Tuy nhiên, mục tiêu của đề tài là xây dựng bộ lọc cho phía client nên chúng tơi khơng trình bầy về phương án này trong các phần sau của báo cáoi
Trên hình 2.4 là cách bố trí bộ lọc thư dưới dạng một proxy Bộ lọc thư sẽ đĩng vai trị trạm trung chuyển thư bằng cách nhận các gĩi tin được gửi theo thức thư điện tử vào các cổng dành cho thư Bộ lọc cĩ thể chạy trên máy chủ hoặc máy khách nhưng thường bộ lọc thư như vậy được cài đặt chạy trên máy khách Cách cấu hình này cĩ ưu điểm là mềm dẻo, cĩ thể kết hợp nhiều bộ lọc khác nhau bằng nếu gắn đầu ra của bộ này với đầu vào của bộ khác và trên thực tế cĩ một số chương trình lọc thư rác sử dụng phương án bố trí này Tuy nhiên, việc sử dụng kết hợp bộ lọc thư với những chương trình proxy khác (như trình chống virus) thường gây mâu thuẫn khi cài đặt và địi hỏi người sử dụng phải cĩ những hiểu biết nhất định
Hệ thống do chúng tơi xây dựng sử dụng phương án bố trí như minh hoạ trên hình 2.4abộ lọc thư được tích hợp với phần mềm duyệt mail ở máy client, nĩ làm nhiệm vụ kiểm tra các thư mới gửi đến và sau đĩ phân loại, đánh dấu nếu thư gửi
MAIL SERVER
BỘ LỌC
MAIL CLIENT
THƯ MỚI
PHẢN HỒI
(c)
Trang 33Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
đến cĩ các đặc điểm trung với nhận diện của thư rác mà phần mềm đã được huấn luyện và thiết lập
Hệ thống được xây dựng để cĩ thể tích hợp với trình duyệt mail Outlook Đây là phần mềm duyệt thư điện tử offline khá thơng dụng tại Việt nam và cung cấp giao diện lập trình thích hợp cho việc kết nối với hệ thống lọc thư
2.2.2 Kiến trúc tổng quan của hệ thống lọc mail
Phần quan trọng nhất của hệ thống bao gồm module huấn luyện và module lọc Hai mơđun này kết hợp chặt chẽ với nhau, đầu ra của mơđun huấn luyện là các tham số tính tốn được trong thời gian huấn luyện (các xác suất điều kiện đối với học Bayes đơn giản) và được lưu trong K.Base Mơđun lọc thư sẽ đọc tham số từ K.Base và sử dụng để phân loại thư mới nhận được Việc tách riêng mơđun huấn luyện khỏi mơđun phân loại làm tăng độ mềm dẻo khi cài đặt và sử dụng hệ thống
Về nguyên tắc, cĩ thể tách riêng mơđun huấn luyện và chạy trên máy khơng cĩ mail server để giảm tải cho máy chủ
Trang 34Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Giao diện
với mail
server
Bộ giao tiếp với Exchange server thơng qua dịch vụ SMTP
Mail server
Hình 2.5: Kiến trúc chung của hệ thống lọc thư
Với kiến trúc thể hiện trên hình 2.5, luồng dữ liệu luân chuyển giữa các thành phần bộ lọc được mơ tả như sau:
Khi một bức thư được gửi đến Mail server exchange, nhờ chứa năng bẫy sự kiện Incoming mail của SMTP thì bức thư đĩ được đưa đến Bộ phân loại Tiếng Anh, tiếng Việt hoặc đưa thẳng đến Bộ phân loại thư rác (phụ thuộc vào tùy chọn của người dùng)
K Base
Bộ phân loại thư tiếng Anh, tiếng Việt
Bộ phân loại thư rác
Dịch vụ SMTP
Exchange Server
Giao diện đăng kí với dịch vụ
SMTP
Trang 35Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Giả sử sau khi đưa vào bộ phân loại Tiếng Anh, tiếng Việt, bức thư được chuyển cho bộ phân loại thư rác Tại đây, nhờ quá trình tính tốn theo Naive Bayes,
nĩ sẽ được gán nhãn là thư rác [Possible Spam] hoặc khơng gán nhãn nếu được xác định là thư thường Sau đĩ, thư được gửi đến Exchange server nhờ dịch vụ SMTP Cuối cùng, bức thư đã sẵn sàng cho Mail Client lấy về qua giao thức POP3
2.2.3 Các kỹ thuật lọc nội dung thơng tin qua mail
Phương pháp lọc nội dung để phân loại thư rác đã và đang được quan tâm, nghiên cứu và ứng dụng nhiều nhất Đặc điểm chung của phương pháp này là dựa vào nội dung và chủ đề bức thư để phân biệt thư rác và thư hợp pháp Dưới đây là các phương pháp lọc nội dung thơng dụng
2.2.3.1 Lọc thư rác dựa vào các dấu hiệu nhận biết
Đầu tiên, người ta tạo ra các địa chỉ email để bẫy thư rác, gọi là các honeypots Các địa chỉ này được tạo ra một cách cố ý sao cho khơng bao giờ thư bình thường được gửi tới Do đĩ, nếu cĩ thư gửi vào các địa chỉ bẫy thì ta cĩ thể chắc chắn đĩ là thư rác
Sau đĩ hệ thống sẽ so sánh thư mới đến với thư đã bẫy được Cách thức so sánh là dựa trên dấu hiệu nhận biết Nếu hai bức thư cĩ các dấu hiện giống nhau thì bức thư mới tới là thư rác
Phương pháp thường dùng để so sánh hai bức thư như trên là gán cho mỗi ký
tự một số nào đĩ, tiếp theo cộng dồn các số đã gán lại với nhau Hai bức thư sẽ được coi là giống nhau nếu cĩ tổng các số đã gán bằng nhau
Ưu điểm của phương pháp lọc thư này là đơn giản, nhanh và khơng lọc nhầm thư thường thành thư rác Tuy nhiên, những người gửi thư rác lại dễ dàng đánh bại
hệ thống này bằng cách sinh ngẫu nhiên các mẩu thư rác sau đĩ gộp lại thành một bức thư hồn chỉnh Khi đĩ các “dấu hiệu“ của các bức thư được gửi sẽ khác nhau
và thư rác sẽ lọt qua được hệ thống lọc Bởi vậy tỉ lệ lọc thư rác của hệ thống này khơng bao giờ vượt ngưỡng 70%
Trang 36Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Do khả năng lọc thư chính xác (khơng chặn nhầm thư hợp pháp) và dễ triển khai nên hệ thống này thường được dùng để lọc thư tại phía server
2.2.3.2 Lọc thư rác thơng qua bỏ phiếu trên các danh sách trắng
Hoạt động của bộ lọc dạng này là tìm xem các từ ở trong danh sách đen/trắng
cĩ nằm trong bức thư mới tới hay khơng và đếm số lần xuất hiện của chúng Nếu số lượng từ thuộc danh sách trắng nhiều hơn (rất nhiều) số từ đếm được thuộc danh sách đen thì bức thư đĩ là thư hợp pháp, ngược lại sẽ là thư rác
Các đặc trưng của bộ lọc:
Khơng cĩ biến đổi dữ liệu ban đầu Dữ liệu ra giống như dữ liệu vào
Biểu thức chính quy để tách từ ra khỏi thư là: [[:graph:]]+
Việc chọn đặc trưng chỉ đơn giản là các từ đơn
Cơ sở dữ liệu về đặc trưng chỉ được nạp khi các từ nằm trong danh sách đen hoặc danh sách trắng, nếu là nằm trong dánh sách trắng thì đặt là +1, nếu thuộc danh sách đen sẽ đặt là -1, tất cả các trường hợp khác đặt giá trị 0.0
Luật tổ hợp là “Điểm mới = Điểm cũ + trọng số của đặc trưng”
Ngưỡng lọc cuối cùng là: “Nếu điểm mới > 0 thì là thư hợp pháp”, “Nếu điểm mới < 0 thì là thư rác” Khơng khẳng định trong các trường hợp khác
Như vậy bộ lọc thực hiện chấm điểm các từ trong danh sách đen và các từ trong danh sách trắng bằng nhau Một số cải biên của bộ lọc này là đánh trọng số cho các từ trong danh sách đen cao hơn trong danh sách trắng và ngược lại
2.2.3.3 Lọc thư sử dụng phương pháp heuristic
Cách thức hoạt động của phương pháp này là con người sẽ xác định những đặc trưng (từ ngữ) nào là của thư rác, đặc trưng nào là của thư hợp pháp, sau đĩ viết chương trình để phát hiện những đặc trưng đĩ trong bức thư gửi tới
Người ta đánh trọng số cho các đặc trưng trên (cĩ thể thực hiện bằng tay hoặc sử dụng thuật tốn) và lập một ngưỡng để phân loại thư Bức thư sẽ được coi
là thư rác nếu cĩ các đặc trưng với trọng số vượt ngưỡng quy định
Trang 37Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
Hiệu suất chặn thư rác của các chương trình sử dụng phương pháp này rất khác nhau Vì mỗi chương trình sử dụng các luật lọc khác nhau Luật đơn giản nhất
là nếu bức thư nào chứa các đặc trưng của thư rác thì đĩ là thư rác Điều này sẽ làm cho bộ lọc chặn mất rất nhiều thư hợp pháp
Một số chương trình lọc thư theo phương pháp này như hệ thống chấm điểm cho email sử dụng phương pháp hueristic (Heuristic Message Scoring System) của mail server MDaemon Hệ thống chấm điểm email này đúc kết trên kinh nghiệm là việc kiểm tra, lọc email sử dụng một số lượng lớn các luật theo trật tự để máy tính chấm điểm Điểm số này sẽ được sử dụng để quyết định một email cĩ phái là spam email hay khơng Ngồi cịn một số các bộ lọc thư rác khác như SpamAssassin, hoặc SpamGuard của Yahoo
Phương pháp này cĩ ưu điểm là dễ cài đặt và hiệu suất chặn thư rác khá cao (nếu xây dựng được các luật tốt) khoảng 90-95% Nhược điểm chính của phương pháp này là tỉ lệ chặn nhầm thư hợp pháp cũng rất lớn (khoảng 0.5%) Ngồi ra phương pháp này cũng khơng linh hoạt vì các luật được xây dựng luơn luơn chậm hơn rất nhiều so với sự biến đổi của từ ngữ trong thư rác
Người ta thường sử dụng phương pháp này cho các bộ lọc thư ở mail server
2.2.3.4 Lọc thư sử dụng phương pháp xác suất thống kê và học máy
Phương thức hoạt động của phương pháp này là, đầu tiên con người sẽ phân loại các bức thư đã cĩ thành hai tập hợp, thư rác và thư hợp pháp Một thuật tốn được sử dụng để trích chọn và đánh trọng số cho các đặc trưng của thư rác theo một cách nào đĩ (thường sử dụng cơng thức xác suất) Sau khi trích trọn đặc trưng, hai tập thư rác và thư hợp pháp sẽ được sử dụng để huấn luyện một bộ phân loại tự động Quá trình huấn luyện dựa trên một phương pháp học máy
Khi một bức thư mới tới nĩ sẽ được tách thành các đặc trưng (từ hoặc cụm từ) rồi được so sánh với các đặc trưng đã cĩ để tìm ra trọng số Từ tổ hợp trọng số của các đặc trưng sẽ đánh giá được bức thư đĩ cĩ phải là thư rác hay khơng bằng
Trang 38Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
cách so sánh với một ngưỡng do người dùng định ra Cách tổ hợp đặc trưng và phân loại thư rác cĩ thể khác nhau và phụ thuộc vào thuật tốn phân loại cụ thể
Hình 2.6: Mơ hình tổng quát lọc thư rác Tiếng Việt
Tỉ lệ chặn thư rác của bộ lọc sử dụng phương pháp này rất cao, khoảng 99% Chương trình SpamProbe cĩ thể đạt tỉ lệ lọc thư rác tới 99.9% Các phương pháp học máy và xác suất thống kê cho phép phân loại cả những thư rác chưa từng xuất hiện trước đĩ (chưa cĩ trong dữ liệu huấn luyện)
Một ưu điểm khác nữa của phương pháp này là tỉ lệ chặn thư hợp pháp rất thấp, thấp hơn rất nhiều so với phương pháp heuristic
Nhược điểm của của phương pháp học máy là phải cĩ một tập hợp các thư để huấn luyện Hiệu suất của bộ lọc sẽ phụ thuộc rất nhiều vào tập huấn luyện ban đầu
đĩ Tập dữ liệu càng lớn và càng chứa nhiều dạng thư khác nhau sẽ cho độ chính xác phân loại càng cao về sau
Hiện nay, phương pháp lọc thư sử dụng học máy và xác suất thống kê được coi là một phương pháp triển vọng với nhiều ứng dụng thương mại như tại Hotmail, Google, Yahoo Phương pháp này sẽ được nghiên cứu chi tiết và trình bày trong các chương tiếp theo
Trang 39Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
2.2.4 Kỹ thuật lọc Spam
Spam gây ra rất nhiều tác hại, do vậy việc phịng chống và ngăn chặn các spam là cần thiết Hiện cĩ nhiều cơng ty phần mềm cung cấp giải pháp chống spam, mỗi dịng sản phẩm cĩ những tính năng và các ưu nhược điểm riêng, nhưng hầu hết các sản phẩm đĩ đều hoạt động dựa vào một số nguyên lý sau:
2.2.4.1 Sử dụng DNS blacklist:
Phương pháp sử dụng DNS black list sẽ chặn các email đến từ các địa chỉ nằm trong danh sách DNS blacklist Cĩ hai loại danh sách DNS Blacklist thường được sử dụng, đĩ là:
Danh sách các miền gửi spam đã biết, danh sách các miền này được liệt kê
và cập nhật tại địa chỉ http://spamhaus.org/sbl
Danh sách các máy chủ email cho phép hoặc bị lợi dụng thực hiện việc chuyển tiếp spam được gửi đi từ spammer Danh sách này được liệt kê và cập nhật thường xuyên tại địa chỉ http://www.ordb.org Cơ sở dữ liệu Open Relay Database này được duy trì bởi ORDB.org là một tổ chức phi lợi nhuận
Khi một email được gửi đi, nĩ sẽ đi qua một số SMTP server trước khi chuyển tới địa chỉ người nhận Địa chỉ IP của các SMTP server mà email đĩ đã chuyển qua được ghi trong phần header của email Các chương trình chống spam sẽ kiểm tra tất cả các địa chỉ IP đã được tìm thấy trong phần header của email đĩ sau
đĩ so sánh với cơ sở dữ liệu DNS Blacklist đã biết Nếu địa chỉ IP tìm thấy trong phần này cĩ trong cơ sở dữ liệu về các DNS Blacklist, nĩ sẽ bị coi là spam, cịn nếu khơng, email đĩ sẽ được coi là một email hợp lệ
Các DNSBL đầu tiên là Blackhole List thời gian thực (RBL), được tạo ra vào năm 1997, ban đầu nĩ được coi như một nguồn cấp dữ liệu BGP bởi Paul Vixie , và sau đĩ là một hệ thống DNSBL xây dựng bởi Eric Ziegast như một phần của hệ thống phịng chống lạm dụng thư (MAPS), Dave Rand tại AboveNet là thuê bao đầu tiên của nĩ Phiên bản đầu tiên của RBL khơng được cơng bố như một DNSBL,
mà là một danh sách các mạng truyền qua BGP để định tuyến và các nhà khai thác
Trang 40Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/
mạng cĩ thể cho phép tất cả các máy sử dụng giao thức TCP/IP để gửi thư Người phát minh ra kỹ thuật này sau đĩ thường được gọi là DNSBL là Eric Ziegast
Thuật ngữ "hố đen" đề cập đến một lỗ đen kết nối mạng, một biểu hiện cho một liên kết trên một mạng lưới mà nĩ giảm lưu lượng truy cập thay vì chuyển tiếp như bình thường Mục đích của RBL là các trang web sử dụng nĩ sẽ từ chối lưu lượng truy cập từ các trang web cĩ hỗ trợ thư rác - cho dù bằng cách chủ động gửi thư rác, hoặc bằng cách khác.Trước khi một địa chỉ sẽ được liệt kê trên các RBL, tình nguyện viên và nhân viên MAPS sẽ cố gắng nhiều lần để liên lạc với người quản lý trang web đĩ và thơng báo các vấn đề của nĩ cần sửa chữa Nỗ lực như vậy được coi là rất quan trọng trước khi blackholing tất cả các lưu lượng mạng, nhưng
nĩ cũng cĩ nghĩa là các spamer và các ISP hỗ trợ thư rác cĩ thể trì hỗn được đặt trên RBL trong thời gian dài trong khi chờ các cuộc thảo luận như vậy
Sau đĩ, RBL cũng được đăng tải trong một danh sách DNSBL và Paul Vixie khuyến khích các hệ thống email để thực hiện hỗ trợ RBL Danh sách các phần mềm mail được phép truy vấn các RBL và trang web bị từ chối truy cập được liệt kê trên một cơ sở dữ liệu cho mỗi máy chủ email thay vì blackholing tất cả lưu lượng truy cập
Ngay sau khi sự ra đời của RBL, rất nhiều tổ chức khác bắt đầu phát triển danh sách của mình với các chính sách khác nhau
Năm 2003, một số DNSBLs bị tấn cơng từ chối dịch vụ, khơng cĩ tổ chức hay cá nhân nào đứng ra chịu trách nhiệm về các vụ tấn cơng này Tuy nhiên, nhiều nhà quan sát tin rằng các cuộc tấn cơng được gây ra bởi kẻ gửi thư rác
Phương pháp này cĩ ưu điểm là các email cĩ thể được kiểm tra trước khi tải xuống, do đĩ tiết kiệm được băng thơng đường truyền Nhược điểm của phương pháp này là khơng phát hiện ra được những email giả mạo địa chỉ người gửi
2.2.4.2 Sử dụng SURBL list
Phương pháp sử dụng SURBL phát hiện spam dựa vào nội dung của email Chương trình chống spam sẽ phân tích nội dung của email xem bên trong nĩ cĩ