Luận văn đã nghiên cứu các phương pháp lọc thư rác trên thế giới và đề xuất phương án kết hợp Supported Vector Machine và Naïve Bayes để tăng tính chính xác cho phương pháp lọc thư rác Naïve Bayes phổ biến. Kết quả, phương án kết hợp SVMNB có độ chính xác cao hơn bộ lọc Bayes đơn thuần.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÂM TĂNG DOAN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ
ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT
Ngành: Công nghệ Thông tin Chuyên ngành: Quản lý hệ thống thông tin
Mã Số: 8480205.01
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Hà Nam
Hà nội – 11/2020
Trang 2Mục lục
LỜI CẢM ƠN iii
LỜI CAM ĐOAN iv
DANH MỤC HÌNH VẼ v
Chương 1: Giới thiệu 1
1.1 Mục tiêu của nghiên cứu 1
1.2 Phương pháp nghiên cứu 2
1.3 Cấu trúc luận văn 2
1.4 Tổng quan về thư rác 2
1.4.1 Định nghĩa 2
1.4.2 Thống kê và tác hại của thư rác 3
1.4.3 Phương pháp phân loại thư rác 6
1.4.4 Các loại thư rác 7
1.4.5 Mô hình lọc thư rác 10
1.4.6 Quy trình hoạt động của lọc thư rác 13
1.4.7 Quy trình lọc thư điện tử sử dụng học máy 14
1.4.8 Mô hình lọc thư rác của Zimbra 14
Chương 2 Các kỹ thuật lọc thư rác thư rác 19
2.1 Các kỹ thuật giảm thiểu thư rác 19
2.1.1 Lọc IP 19
2.1.2 Danh sách xám và phản hồi - thách thức 20
2.1.3 Cải thiện xác thực thư để phòng chống thư rác 20
2.1.4 Bảo vệ địa chỉ 22
2.2 Các kỹ thuật lọc thư rác 22
2.2.1 Phương thức trích xuất thư điện tử 23
2.2.2 Các kỹ thuật lọc thư rác cơ bản 32
2.2.3 Các kỹ thuật lọc thư rác thông minh 35
2.3 Các nghiên cứu về lọc thư rác trên thế giới 40
2.4 Một số nghiên cứu về thư rác tại Việt Nam 42
Trang 3Chương 3 Đề xuất và Thực nghiệm 44
3.1 Đề xuất giải pháp lọc thư rác 44
3.1.1 Mơ hình thực nghiệm vật lý 45
3.1.2 Lọc thư rác sử dụng SVM và Nạve Bayes 46
3.1.3 Xây dựng quy tắc lọc tiếng Việt 48
3.2 Thực nghiệm 55
3.2.1 Dữ liệu huấn luyện 55
3.2.2 Kiểm thử hệ thống khi chưa cài Nạve Bayes 55
3.2.3 Kiểm thử hệ thống chỉ cĩ Nạve Bayes 56
3.2.4 Tỉ lệ lọc sau khi tích hợp SVM-NB 59
3.2.5 Kiểm tra các quy tắc tự xây dựng 61
KẾT LUẬN 64
TÀI LIỆU THAM KHẢO 65
Trang 4LỜI CẢM ƠN
Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS TS Nguyễn Hà Nam – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công việc của mình
Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình huấn luyện, cung cấp cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập, nghiên cứu tại trường
Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên tôi những khi vấp phải những khó khăn, bế tắc
Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp của tôi tại Trường Đại Học Kinh tế - Đại học Quốc Gia Hà Nội đã giúp đỡ, tạo điều kiện thuận lợi cho tôi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ, Đại học Quốc Gia Hà Nội
Trang 5LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Nghiên cứu các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt” là công trình nghiên cứu của riêng tôi, không
sao chép lại của người khác Trong toàn bộ nội dung của luận văn, những điều
đã được trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này
Hà Nội, ngày 20 tháng 12 năm 2020
Lâm Tăng Doan
Trang 6DANH MỤC HÌNH VẼ
Hình 1.1 Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] 3
Hình 1.2 Thống kê phân loại các nội dung của thư rác năm 2020 [5] 7
Hình 1.3 Mơ hình khái quát về gửi, nhận thư điện tử 10
Hình 1.4 Mơ hình lọc thư rác [9] 12
Hình 1.8 Quy trình lọc nội dung thư rác [9] 13
Hình 1.9 Quy trình lọc nội dung thư điện tử [9] 14
Hình 1.5 Mơ hình xử lý thư của Zimbra 15
Hình 1.6 Chi tiết điểm số trên tiêu đề thư rác được đánh dấu bởi Spamassassin 17
Hình 1.7 Thành phần chính của mơ đun lọc của Spamassassin [11] 17
Hình 3.1 Kiến trúc mơ hình lọc thư rác 45
Hình 3.2 Tỉ lệ xuất hiện của các cụm từ 51
Hình 3.3 Thống kê các cụm từ tiếng Việt xuất hiện nhiều nhất trong dữ liệu huấn luyện 51
Hình 3.4 Các quy tắc tạo ra để ổn định hệ thống lọc 54
Hình 3.5 Quá trì huấn luyện dữ liệu mẫu của Nạve Bayes 55
Hình 3.6 Thư rác chưa được phân loại đúng khi chưa được huấn luyện Nạve Bayes 56
Hình 3.7 Thư rác được phân loại là thư rác sau khi huấn luyện Nạve Bayes 56
Hình 3.8 Kết quả kiểm tra mass-check 57
Hình 3.9 Phân bổ điểm của tập thư rác 57
Hình 3.10 Điểm của 1 thư rác đã cĩ lọc Nạve Bayes 58
Hình 3.11 Thống kê khả năng lọc thư của hệ thống 59
Hình 3.12 Tỉ lệ nhận định thư rác đúng 59
Hình 3.13 Tỉ lệ chính xác của lọc thư rác hợp lệ 60
Hình 3.14.Thư rác kiểm thử các quy tắc đã tạo 62
Hình 3.15 Chi tiết tính điểm cho 1 thư đáp ứng quy tắc được tạo 62
Trang 7Chương 1: Giới thiệu
Mạng Internet ra đời đã mở ra nhiều phương thức liên lạc mới, cho phép liên lạc cách xa hàng nghìn kilomet Một trong những phương tiện được sử dụng nhiều nhất để giao tiếp trong công việc cũng như cá nhân đó là thư điện
tử Thư điện tử cho phép người dùng tiếp cận hàng trăm nghìn người trong vòng vài giây và hầu như miễn phí Do đó, số lượng người sử dụng thư điện tử cho công việc và giao tiếp ngày càng nhiều Tuy nhiên, do khả năng tiếp cận nhiều người dễ dàng và miễn phí nên phương thức liên lạc này hay bị lợi dụng cho mục đích xấu Trong vài năm gần đây, thư rác (hay còn gọi là spam) đã trở thành một vấn đề đáng lưu tâm đối với doanh nghiệp và người dùng cá nhân Một số thư rác có mục đích thương mại, một số khác để để bày tỏ ý kiến chính trị hoặc tôn giáo, hoặc lừa đảo khán giả hoặc phát tán virus
Thư rác đã trở thành một công cụ phổ biến phục vụ cho mục đích xấu
do thư rác dễ triển khai, có khả năng gửi hàng loạt, chi phí thấp và khả năng tiếp cận người dùng cao Hơn nữa do trở ngại về công nghệ với cơ sở hạ tầng thư điện tử, để theo dõi hoặc truy vết cá nhân hoặc nhóm gửi thư rác rất khó và tốn thời gian Ngoài ra, những kẻ gửi thư rác thường hay che giấu hoặc giả mạo địa chỉ của thông điệp Ngay cả khi chúng được truy tìm, kiến trúc phi tập trung của Internet gây khó khăn cho việc thực hiện các biện pháp bảo vệ pháp lý
Tại các trường đại học, các cán bộ công nhân viên cũng như sinh viên đều đang sử dụng thư điện tử để trao đổi công việc, học tập Do đó, việc ngăn chặn thư rác, để làm tăng đường truyền băng thông cho người dùng, giảm lưu trữ trên máy chủ thư điện tử ngăn chặn phát tán thư độc hại, nội dung tuyên truyền phản động, phản cảm hay những hành vi lừa đảo trên mạng là vô cùng cần thiết
Thực tế và qua quá trình thư thập dữ liệu thư tiếng Việt cho thấy có rất nhiều thư rác Tiếng Anh ở hòm thư người dùng Việt, thậm chí nhiều hơn thư rác tiếng Việt Do đó, ta cần triển khai một bộ lọc thư rác có thể lọc cả thư rác Tiếng Việt và Tiếng Anh
1.1 Mục tiêu của nghiên cứu
Dựa theo bối cảnh trên, căn cứ nhu cầu thực tế, đề tài nghiên cứu và triển khai được hình thành nhằm xây dựng một hệ thống lọc thư rác tiếng Việt Hiện nay các hệ thống lọc thư rác được tích hợp sẵn đã lọc thư rác khá hiệu quả đối với thư điện tử Tiếng Anh và tuy nhiên chưa được tối ưu hóa đối với các thư
Trang 8điện tử tiếng Việt Các tập luận để lọc được xây dựng chỉ cho thư tiếng Anh
Do đó, đề tài này mong muốn sẽ tối ưu và nâng cao khả năng lọc thư rác tiếng Việt
1.2 Phương pháp nghiên cứu
Phương pháp luận được sử dụng trong đề tài này bao gồm phương pháp nghiên cứu và tổng hợp lý thuyết và phương pháp thực nghiệm Mục lý thuyết được nghiên cứu và thu thập từ các sách, bài báo tạp chí chuyên ngành
Sau khi có được nền tảng lý thuyết và mô hình thực nghiệm sẽ tiến hành
Mô hình thực nghiệm được xây dựng, hỗ trợ bởi một số nền tảng lý thuyết Các kết quả thực nghiệm thu được sẽ được đánh giá và kiểm chứng lại trên nền lý thuyết
1.3 Cấu trúc luận văn
Đề tài bao gồm 3 chương chính Đề tài được nghiên cứu và xây dựng đi lên từ những nghiên cứu tổng quan về thư rác, thảo luận tổng quan về thư rác,
mô hình tổng quan về gửi và nhận thư điện tử cũng như các phương thức xác thực để phòng chống thư rác (Chương 1)
Chương 2 sẽ trình bày các phương pháp trích xuất thông tin thư điện tử,
kỹ thuật giảm thiểu thư rác phổ biến như chặn IP, lọc theo luật, lọc theo nhận dạng và các kỹ thuật lọc rác cơ bản và thông minh Tiếp theo, luận văn so sánh, nghiên cứu về các hướng đi lọc thư rác ở Việt Nam và trên thế giới, để từ đó đưa ra đề xuất phù hợp
Cuối cùng, Chương 3 mô tả thực nghiệm bao gồm đề xuất mô tả kiến trúc thực nghiệm, kỹ thuật áp dụng trong thực nghiệm và kết luận và đánh giá kết quả thực nghiệm
1.4 Tổng quan về thư rác
1.4.1 Định nghĩa
Có rất nhiều định nghĩa khác nhau cho thư rác Theo [1], thư rác (spam)
là hoạt động gửi thư điện tử không được yêu cầu, với số lượng lớn và trong một số trường hợp liên tục gửi đến những cá nhân mà không có liên hệ trước
đó và địa chỉ e-mail của họ được thu thập không hợp pháp, hoặc spam thường được hiểu là việc gửi đi hàng loạt các thư thương mại không được yêu cầu bởi một người gửi ngụy trang hoặc giả mạo danh tính, hay được định nghĩa là tin
Trang 9nhắn điện tử không được yêu cầu, bất kể nội dung [1] [2] Định nghĩa này có tính đến các đặc điểm của thư điện tử hàng loạt [2]
Các định nghĩa về thư rác đều có những đặc điểm chung như sau:
• Gửi bằng thư điện tử
• Sử dụng các địa chỉ được thu thập mà không có sự đồng ý
• Gửi hàng loạt
• Không mong muốn nhận
• Lặp đi lặp lại
• Nhầm mục đích thương mại hoặc tài chính
• Không có mục tiêu và bừa bãi
• Không thể ngăn cản
• Ẩn danh và / hoặc ngụy trang
• Nội dung bất hợp pháp hoặc xúc phạm
• Nội dung lừa đảo hoặc gian lận
1.4.2 Thống kê và tác hại của thư rác
Thư rác chiếm một phần rất lớn của băng thông mạng, theo thống kê của Statista [3], từ những năm 2012 đến 2018, số lượng thư rác luôn nhiều hơn so với số lượng thư hợp lệ (ham) Mặc dù số lượng thư rác có giảm xuống so với những năm trước đây từ 69% giảm xuống 55%, tuy nhiên, có thể thấy thư rác vẫn chiếm một lượng băng thông mạng lớn
Hình 1.1 Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3]
Theo thống kê mới nhất của Statista [4], thư rác chiếm 53,95 phần trăm lưu lượng thư điện tử vào tháng 3 năm 2020 Trong khoảng thời gian gần đây
Trang 10nhất, Nga chiếm phần lớn nhất trong số các thư rác với 20,74 % tổng lượng thư rác toàn cầu Bất chấp sự phổ biến của nó, tỷ lệ thư rác e-mail toàn cầu thực sự đang giảm: tỷ lệ thư rác hàng năm toàn cầu trong năm 2018 là 55%, giảm so với 69% vào năm 2012 [5]
Trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận hàng ngày [6] Phần lớn trong số đó là các e-mail quảng cáo được gửi bởi các nhà tiếp thị mỗi ngày Trong khi nhiều người sử dụng cho rằng nội dung đó nằm trong thư mục thư rác của họ, e-mail tiếp thị nói chung là vô hại, tuy gây khó chịu cho người dùng Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp thị đến được hộp thư đến của khách hàng và 7% đã bị bộ lọc thư rác bắt được [6] Tuy nhiên, mọi thứ đang được cải thiện đối với các nhà tiếp thị: vào năm 2018, tỷ lệ gửi thư rác của các e-mail tiếp thị thương mại đã giảm xuống còn 9%, giảm từ 14% vào năm 2017 [6] Tuy nhiên, không phải tất cả các thư rác đều là những e-mail quảng cáo lành tính Một phần đáng kể các thư rác có tính chất độc hại hơn, nhằm phá hoại hoặc chiếm quyền điều khiển hệ thống của người dùng [6]
Thống kê trong quý đầu tiên của năm 2020, về các nguồn của thư rác, 9,64% khối lượng thư rác toàn cầu bắt nguồn từ các IP có trụ sở tại Hoa Kỳ tuy nhiên phần lớn thư rác bắt nguồn là Nga chiếm 20,74 phần trăm tổng thư rác toàn cầu [6]
Thư rác là thư điện tử được gửi không mong muốn, gây ra nhiều ảnh hưởng đến nhiều mặt khác nhau:
• Quá tải băng thông: Thư rác chặn các kênh liên lạc và tạo ra lưu lượng băng thông lớn (chi phí băng thông này công ty/doanh nghiệp phải trả tiền) Ngoài ra, có những máy chủ thư phải xử lý thư rác và những máy chủ này phải được bảo trì bởi các chuyên gia được trả lương cao Do đó, chi phí vận hành cơ sở hạ tầng tăng đáng kể
• Tốn thời gian Nếu thư rác đến hộp thư đến của người dùng, người nhận phải xóa nó theo cách thủ công Một người đọc 10-20 thư điện tử mỗi ngày có thể nhận được khoảng 160-180 tin nhắn rác cùng với thư từ công việc của họ Điều đó có nghĩa là họ sẽ dành 5-6 giờ mỗi tháng chỉ để xóa thư rác, gây phương hại đến thời gian làm việc hiệu quả của họ
• Khó chịu và phiền toái Bằng cách xóa thủ công thư rác, người dùng trở thành một kỹ thuật viên xử lý rác thải ‘điện tử’ Việc buộc phải thực hiện các biện pháp như vậy không thể không gây khó chịu cho người dùng, dẫn đến những cảm xúc tiêu cực không
Trang 11mong muốn Cũng có thể trong quá trình xóa, người dùng cũng
có thể vô tình xóa mất một thư điện tử quan trọng cùng với vô số thư rác Tất cả những ai đã đối mặt với tình huống như vậy đều cảm thấy khó chịu và phiền toái
• Ảnh hưởng của thư rác đối với cá nhân:
Thư rác gây tốn kém chi phí cho người dùng và cho xã hội nói chung Cho dù tài khoản doanh nghiệp hay cá nhân, người nhận thường sẽ tốn thời gian để phân loại thư điện tử và xóa các thư không mong muốn và do đó phải chịu chi phí cơ hội về thời gian Thư rác cũng gia tăng chi phí của các nhà cung cấp dịch vụ Internet (ISP) do tiêu thụ nhiều băng thông Cuối cùng, thư rác được sử dụng để đạt được các mục tiêu gian lận hoặc tội phạm khác, gây ra các chi phí gián tiếp tiềm ẩn có liên quan đến nó
Theo ước tính [1] rằng các công ty và người tiêu dùng Mỹ phải chịu chi phí gần 20 tỷ đô la mỗi năm do thư rác Con số của người tiêu dùng phải gánh chịu chi phí gần 20 tỷ đô la hàng năm do thư rác Ước tính rằng những người gửi thư rác và người bán quảng cáo bằng thư rác thu thập tổng doanh thu trên toàn thế giới theo đơn đặt hàng là 200 triệu đô la mỗi năm Do đó, "tỷ lệ" của chi phí bên ngoài cho lợi ích bên trong cho thư rác là khoảng 100:1 [1]
• Ảnh hưởng của thư rác đối với doanh nghiệp
Trong môi trường kinh doanh, thư rác gây ra tốn kém cho chi phí bảo mật dịch vụ, phần cứng và phần mềm; chi phí huấn luyện; mất năng suất do mất thời gian xóa các thư điện tử không mong muốn (hoặc tìm kiếm những cái
đã xóa) và chi phí mua dung lượng lưu trữ bổ sung Theo ước tính [7] của về chi phí spam từ các nhà xuất bản và tạp chí lên tới 1,1 tỷ đô la Mỹ mỗi năm Tính tất cả các loại spam, chi phí tăng lên khoảng 2,6 tỷ đô la Mỹ mỗi năm
Ngoài ra, các doanh nghiệp cũng bị từ các tác động gián tiếp của thư rác, chẳng hạn như phải trả giá cao hơn cho các dịch vụ ISP Ở cấp độ nhà cung cấp dịch vụ (ISP), chi phí xử lý thư rác là một phần của ngân sách bảo mật Cách đây vài năm, ISP coi vẫn coi thư rác là một vấn đề của người dùng cá nhân [6] Tuy nhiên, với một lượng lớn thư rác gia tăng, các ISP phải đối mặt với các khoản đầu tư có thể tốn kém vào cơ sở hạ tầng thư và đầu tư mua thêm thiết bị lưu trữ, khiến cho các nhà ISP ngày càng quan tâm vấn đề này và giúp làm sáng tỏ những chi phí tiềm ẩn này
Trang 121.4.3 Phương pháp phân loại thư rác
Các phương pháp khác nhau đang được sử dụng để đo lường và phân tích thư rác Ba phương pháp tiếp cận chính đang được sử dụng cho việc này: khảo sát (dựa trên lấy mẫu); phương pháp tiếp cận dựa trên báo cáo; và phương pháp tiếp cận dựa trên công cụ kỹ thuật
1.4.3.1 Phương pháp khảo sát
Phương pháp khảo sát gắn chặt với kích thước mẫu cũng như thái độ của những người tham gia khảo sát Trong phương pháp, điều quan trọng là những người được chọn trong khảo sát có thể trở thành đại diện mẫu được không So với các công cụ kỹ thuật, cách tiếp cận này ít tốn kém hơn và có thể được thiết lập và thực hiện trong thời gian tương đối ngắn Một ví dụ về nghiên cứu dựa trên khảo sát là khảo sát của AOL và DoubleClick, hai nhà cung cấp giải pháp tiếp thị qua thư điện tử Bảng câu hỏi được gửi cho hơn 2000 người, nhằm khảo sát điều gì khiến người sử dụng phàn nàn, quy trình báo cáo spam cho AOL hoặc quy trình hủy đăng ký qua thư điện tử (unsubscribe) [2]
1.4.3.2 Phương pháp dựa trên báo cáo
Phương pháp dựa trên báo cáo phụ thuộc vào báo cáo của chính những người nhận thư rác, sau đó được phân tích Mục đích chính của phương pháp này là phân tích nội dung của thư rác một cách chi tiết và xác định các loại thư rác, người gửi thư rác và các đặc điểm của việc gửi thư rác Phương pháp này dựa trên cơ sở phân tích thư rác được báo cáo, thay vì cố gắng tính toán khối lượng thư rác hoặc xác định phần trăm e-mail là thư rác Với cách tiếp cận này,
dữ liệu được thu thập trên cơ sở tự nguyện từ người dùng và do đó, định nghĩa
về thư rác (theo báo cáo) là chủ quan, dựa trên nhận thức của cá nhân người nhận Phương pháp này được sử dụng bởi SpamCop và Abuse.net nhằm thu thập và phân tích các báo cáo tự nguyện của người dùng [2] Trên Google thư điện tử hay các phần mềm thư điện tử đều có mục ‘Report spam’ để gửi báo cáo cho các nhà cung cấp về một thư điện tử theo cảm nhận cá nhân là thư rác Điều này sẽ giúp các nhà cung cấp dịch vụ có những mẫu thu thập về thư rác
đa dạng và tổng quan hơn
Trang 13cận còn lại Trên mặt khác, tuy nhiên, phương pháp này bị hạn chế ở chỗ không thể đánh giá phản ứng chủ quan đối với thư rác, chẳng hạn như báo cáo thư rác, hay xóa bỏ thư rác Cách tiếp cận kỹ thuật phụ thuộc vào độ chính của các thuật toán và kỹ thuật được sử dụng, đòi hỏi cập nhật liên tục để nhận ra các dạng thư rác mới Các công cụ kỹ thuật không đảm bảo độ chính xác hoàn toàn,
do đó dẫn đến nhiều kết quả dương tính giả (thư hợp lệ bị phân loại nhầm thành spam) và âm tính giả (thư rác bị nhầm lẫn không được phân loại) [2]
1.4.4 Các loại thư rác
Thư rác có thể được phân loại theo mục tiêu của người gửi thư rác Nhiều người gửi thư rác gửi e-mail hàng loạt vì lý do quảng cáo như gửi quảng cáo thương mại hoặc mời tham gia vào các chiến dịch chính trị, hoặc nhằm mục đích lừa đảo hay phân phối phần mềm độc hại như virus hay trojan Phần này trình bày các loại thư rác phổ biến và đưa ra số liệu thống kê, nếu có
Theo Statista [5], trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận hàng ngày Điều này bao gồm hàng tỷ thư quảng cáo được gửi bởi các nhà tiếp thị mỗi ngày Trong khi nhiều người dùng e-mail tin rằng nội dung như sẽ nằm trong mục thư rác (Spam), hay thư tiếp thị nói chung là vô hại, hoặc chỉ là gây khó chịu cho người dùng Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp thị nằm trong Hộp thư đến (Inbox) của người dùng và 7% đã bị bộ lọc thư rác bắt được Tuy nhiên, mọi thứ đang được cải thiện vào năm 2018, tỷ lệ đặt thư rác thương mại đã giảm xuống còn 9%, giảm từ 14% vào năm 2017
Hình 1.2 Thống kê phân loại các nội dung của thư rác năm 2020 [5]
Trang 14Theo thống kê [4], các danh mục nội dung thư rác năm 2019, đứng đầu
là nội dung về sức khỏe (39%), sau đó là quảng cáo các sản phẩm (12%), và các nội dung khác (người lớn, độc hại, lừa đảo, hẹn hò,…) chiếm từ 2% đến 10%
Nhìn chung, các thư rác được phân thành các loại phổ biến như sau:
1.4.4.1 Thư rác quảng cáo
Thư rác quảng cáo hay còn được gọi là thư rác mục đích thương mại (viết tắt là UCE) Hầu hết, các thư rác quảng cáo được coi là một loại hình tiếp thị trực tiếp và được các công ty coi là một công cụ quan trọng để tiếp cận khách hàng (tiềm năng), vì thư điện tử chi phí rẻ (hầu như miễn phí) và dễ dàng
để liên hệ với một nhóm lớn khách hàng Tuy nhiên, hầu hết thư rác không được gửi bởi chính các công ty quảng cáo, mà bởi những người gửi thư rác (spammer), là những người nhận hoa hồng từ các công ty này [1] một nghiên cứu ước tính rằng chi phí gửi một thư điện tử là từ 0,01 đô la Mỹ đến 0,05 đô
la Mỹ [1] Vì chi phí gửi thư rác rất thấp nên những người gửi thư rác có thể kiếm được lợi nhuận mặc dù tỷ lệ phản hồi cực kỳ thấp Theo [1] chỉ ra mặc
dù chi phí thấp, tỷ lệ phản hồi thấp, tuy nhiên khoảng 8% người trả lời thừa nhận họ đã thực sự mua một sản phẩm quảng cáo qua thư rác Miễn là những
kẻ gửi thư rác có thể kiếm được nhiều tiền hơn hơn chi phí của họ, họ có thể
sẽ tiếp tục gửi thư rác Đây là hành vi “hợp lý” theo nghĩa kinh tế
Ngoài các thư rác nhằm mục đích quảng cáo trực tiếp còn có các thư rác gián tiếp sẽ khuyến nghị mua một cổ phiếu cụ thể, nhằm tác động đến giá cổ phiếu nào đó Một nghiên cứu thực nghiệm [8] cho thấy trong ngắn hạn, cổ phiếu thư rác có tác động đáng kể đến cả khối lượng giao dịch và định giá thị trường Theo thống kê của Symantec, 80% thư rác về lĩnh vực tài chính, sức khỏe, Internet và các sản phẩm dành cho người lớn Theo một thống kê khác thì thư rác về quảng cáo các loại thuốc chức năng chiếm ưu thế Hai số liệu thống kê có sự khác biệt rõ ràng, điều này phụ thuộc vào dữ liệu mẫu của hai thống kê thu thập được Tuy nhiên, không thể phủ nhận rằng thư rác quảng cáo chiếm một thị phần rất lớn của thư rác
1.4.4.2 Thư rác tuyên truyền, vận động
Các thư quảng cáo không cần thiết phải có mục đích thương mại Họ cũng có thể tuyên truyền các ý tưởng và/hoặc tổ chức chính trị, văn hóa hoặc tôn giáo Ví dụ, vào năm 2003, các thành viên của Quốc hội Hoa Kỳ đã gửi hàng trăm nghìn thư không được yêu cầu cho thành viên nhằm vận động các
Trang 15chiến dịch Các loại thư điện tử này thường nhằm mục đích kêu gọi sự ủng hộ, đồng thuận của những người nhận thư
1.4.4.3 Thư rác lừa đảo
Lừa đảo qua thư điện tử là các tin nhắn lừa đảo cung cấp số tiền lớn và yêu cầu chi tiết tài khoản ngân hàng hoặc lừa đảo giả mạo các dịch vụ phổ biến
và lừa người nhận cung cấp chi tiết thẻ tín dụng /tài khoản của họ [2] Một trong những trò lừa đảo rửa tiền phổ biến là người dùng nhận được thư điện tử
từ một người tự xưng là quan chức chính phủ, thành viên gia đình của một quan chức đã qua đời hoặc luật sư đại diện cho một khách hàng giàu có đã qua đời Thư điện tử hỏi chi tiết ngân hàng hoặc yêu cầu người nhận thanh toán trước như một cử chỉ thiện chí, với lời hứa sẽ hoàn lại tiền trong tương lai Nếu người nhận cung cấp thông tin chi tiết, thì tài khoản của khách hàng sẽ bị tấn công và trừ tiền Ở mỗi quốc gia khác nhau lại có nhiều phiên bản lừa đảo khác nhau tồn tại
Một dạng lừa đảo qua thư rác nữa là một doanh nghiệp hợp pháp được thành lập, nhằm lừa người dùng cung cấp thông tin cá nhân, thông tin này sẽ được sử dụng để đánh cắp danh tính Thư gửi đến sẽ hướng dẫn người dùng truy cập một trang web nơi họ được yêu cầu cập nhật thông tin cá nhân, chẳng hạn như mật khẩu và thẻ tín dụng, số an sinh xã hội và số tài khoản ngân hàng
mà tổ chức hợp pháp đã có Tuy nhiên, trang web này là giả mạo và được thiết lập chỉ để lấy cắp thông tin của người dùng Sự nguy hiểm của các trò gian lận lừa đảo là trang web mà nạn nhân hướng đến thường giống thật, vì đó là trang web giả mạo nhằm sao chép trang web của doanh nghiệp hợp pháp Lừa đảo qua thư điện tử này được gọi là phishing, là một biến thể của "câu cá", ý tưởng
là mồi được ném ra với hy vọng rằng trong khi hầu hết sẽ bỏ qua mồi, một số
sẽ bị dụ cắn [2]
1.4.4.4 Thư rác chứa mã độc
Tuy nhiên, không phải tất cả các thư rác đều là thư quảng cáo lành tính Một phần đáng kể các tin nhắn rác có tính chất độc hại hơn, nhằm mục đích phá hoại hoặc chiếm đoạt hệ thống của người dùng Các biến thể phổ biến nhất của thư rác độc hại trên toàn thế giới bao gồm vi rút, trojan, phần mềm gián điệp và phần mềm tống tiền [2] Vi rút là một chương trình, giống như vi rút sinh học, có thể sao chép và đôi khi làm hỏng máy tính bị nhiễm Bằng phương thức này, vi rút là một chương trình hoặc tài liệu được đính kèm với một thư điện tử mà khi mở ra, nó sẽ lây lan bằng cách tự chuyển tiếp hàng loạt người nhận trong danh bạ của người gửi hoặc người dùng sẽ tải xuống và cài đặt giúp
Trang 16kẻ tấn công chiếm quyền điều khiển hệ thống Đối với thư điện tử từ người lạ, không nên mở bất kỳ tệp đính kèm nào nếu không chắc chắn là nó không gây hại Thư rác phát tán phần mềm độc hại để lây nhiễm sang máy chủ nhằm chiếm quyền điều khiển từ xa và được sử dụng để gửi nhiều thư rác hơn Các máy chủ bị nhiễm được gọi là "zombie" Nhiều người tin rằng hầu hết thư rác được gửi qua mạng botnet, là một mạng lưới các máy tính cá nhân bị lây nhiễm
mã độc, tuy nhiên giả thuyết này cũng khó được chứng minh
1.4.4.5 Thư rác bôi nhọ
Thư rác bôi nhọ - “Joe job” là thuật ngữ Internet để chỉ địa chỉ thư giả mạo, nhìn có vẻ đúng là địa chỉ thư của ai đó, nhưng thực sự đó là địa chỉ thư được giả mạo bởi một người khác, với ý định tạo ra các phiền toái, bôi nhọ hoặc làm tổn hại đến danh tiếng của nạn nhân vô tội Ví dụ, kẻ xấu có thể gửi một thư rác chứa nội dung khiêu dâm trẻ em cho hàng nghìn người sử dụng địa chỉ trả lại giả mạo để khiến người nhận phẫn nộ và kích động Tên "joe job" lần đầu tiên được sử dụng để mô tả một kế hoạch hướng đến Joe Doll, người
đã cung cấp dịch vụ lưu trữ cho các trang web miễn phí Một người dùng có tài khoản bị xóa vì quảng cáo thông qua thư rác; để trả đũa, anh ta đã gửi một thư rác khác cho vài triệu nạn nhân vô tội, nhưng với tiêu đề "trả lời" được giả mạo Joe Doll
1.4.5 Mô hình lọc thư rác
1.4.5.1 Mô hình gửi nhận thư điện tử
Để hiểu về phương thức lọc thư rác, cần tìm hiểu mô hình gửi nhận thư điện tử Mô hình sau biểu diễn khái quát về cách thức gửi nhận thư:
Hình 1.3: Mô hình khái quát về gửi, nhận thư điện tử
Trang 17- SMTP: là viết tắt của phương thức Send Mail Tranfer Protocol, là phương thức gửi thư Để nhận tải thư điện tử xuống chương trình của người dùng có 2 protocol sau:
- POP: quản lý thư trên máy tính của người dùng
- IMAP: quản lý thư trên máy chủ
• MUA (Mail User Agent)
Ứng dụng của người dùng cho phép nhận và gửi email Nó có thể là một ứng dụng như Microsoft Outlook/Thunderbird /… hoặc dựa trên trình duyệt web như Gmail / Hotmail /… (sau này còn được gọi là Webmail)
• MSA (Mail Subssmions Agent)
Ứng dụng máy chủ nhận thư từ MUA, kiểm lỗi và chuyển tiếp (qua SMTP) đến MTA được lưu trữ trên cùng server
• MTA (Máy chủ chuyển thư)
Ứng dụng máy chủ nhận thư từ MSA hoặc từ MTA khác Nó sẽ tìm bản ghi MX từ bản ghi DNS của tên miền của người nhận để biết cách chuyển thư Sau đó, nó sẽ chuyển thư (thông qua phương thức SMTP) đến một MTA khác (được gọi là SMTP relay) hoặc nếu đã đến máy chủ của người nhận thì sẽ chuyển tiếp đến MDA
Ví dụ về MTA là Postfix, Exim, Sendmail, qmail,
• MDA (Mail Delivery Agent)
Một chương trình máy chủ nhận thư từ MTA và lưu trữ nó vào hộp thư MDA còn được gọi là LDA (Local Delivery Agent)
Một ví dụ là Dovecot, chủ yếu là máy chủ POP3 và IMAP cho phép MUA truy xuất thư, nhưng cũng bao gồm MDA lấy thư từ MTA và gửi đến hộp thư của server
• Hộp thư: maildir / mbox
Bộ lưu trữ thư của máy chủ Maildir là một phương thức lưu trữ được
ưu tiên hơn mbox
Trang 18khi đó, IMAP duy trì tất cả các thư email trên máy chủ, cho phép quản lý một hộp thư bởi nhiều ứng dụng máy khách
• Bản ghi MX (Mail Exchanger)
Bản ghi Mail Exchanger (MX) trong DNS chỉ định máy chủ nào là máy chủ thư cho một miền Tên máy chủ từ bản ghi MX phải ánh xạ tới một hoặc nhiều bản ghi địa chỉ (A hoặc AAAA) trong DNS và không được trỏ đến bất
kỳ bản ghi CNAME nào
1.4.5.2 Mô hình lọc thư rác tổng quan
Hình 1.4: Mô hình lọc thư rác [9]
Một thư điện tử được gửi và nhận thường thông qua một nhà cung cấp dịch vụ Lọc thư rác có thể triển khai ở các cấp sau:
- Lọc thư rác cá nhân: Lọc thư rác ở cấp độ người dùng cung cấp một số
ứng dụng để người dùng cá nhân có thể gửi nhận thư an toàn [9] Khách hàng có thể dễ dàng lọc thư rác thông qua các nền tảng dựng sẵn (framework), một số các nền tảng này sẵn có và có thể cài đặt trên máy tính dễ dàng Các nền tảng này có thể tương tác với phần mềm nhận thư
và lọc hộp thư đến của khách hàng và quản lý các tin nhắn
- Lọc thư rác doanh nghiệp: Đối với lọc thư rác cấp doanh nghiệp, các
nền tảng được cài đặt trên máy chủ thư (thư điện tử server) để tương tác với máy chủ gửi thư nhằm phân loại tin nhắn hoặc lọc thư rác [9] Hầu hết các nền tảng lọc thư rác hiện hành sử dụng phương pháp tính điểm dựa trên các luật xây dựng sẵn Khi một chuỗi ký tự trong thư đáp ứng
1 quy tắc thì sẽ được tính điểm, và các điểm cho các chuỗi ký tự trong một thư sẽ được cộng dồn Nếu tổng số điểm của 1 thư vượt quá giá trị
WEB
MTA
Máy chủ chuyển thư
Lọc thư rác doanh nghiệp
Email được chấp thuận
MUA LAN
Trang 19ngưỡng, thư đó sẽ coi như tin nhắn rác Vì những kẻ gửi thư rác sử dụng nhiều chiến lược và biện pháp khác nhau và luôn thay đổi, vì vậy tất cả các chức năng phải được thiết kế lại thường xuyên để tự động chặn thư rác một cách hiệu quả
1.4.6 Quy trình hoạt động của lọc thư rác
Mô hình sau thể hiện quá trình lọc thư rác tiêu chuẩn, bao gồm các bước sau:
Hình 1.5: Quy trình lọc nội dung thư rác [9]
Đầu tiên là “Bộ lọc nội dung” được sử dụng để xác định thư rác bằng cách áp dụng một số Kỹ thuật học máy [9] Thứ hai, tiêu đề sẽ được lọc thông qua “Bộ lọc tiêu đề” bằng cách trích xuất thông tin từ tiêu đề thư Sau đó, bộ lọc danh sách đen sẽ được chạy để loại bộ những thư điện tử hoặc những IP trong danh sách chặn Tiếp theo, "Bộ lọc dựa trên luật” lọc các nội dung theo các luật do người dùng tạo hoặc cài đặt Sau đó, "Bộ lọc quyền" cho phép gửi thư đối với người gửi đã được chấp thuận trước Cuối cùng, “Bộ lọc theo cơ chế thách thức- phản hồi” áp dụng một thuật toán để có được sự cho phép để gửi thư [9]
Lọc nội dung
(content)
Lọc tiêu đề (header)
Lọc theo danh sách chặn
(blacklist-Lọc theo quy tắc (rule-base)
Lọc theo phân quyền (Permission) Lọc theo cơ chế thách thức-phản
hồi (Challenge- response)
Trang 201.4.7 Quy trình lọc thư điện tử sử dụng học máy
Hình 1.6: Quy trình lọc nội dung thư điện tử [9]
Hình trên mô tả mô hình kiến trúc của bộ lọc thư áp dụng kỹ thuật học máy [9] Bước đầu tiên, ta sẽ thu thập các thư điện tử của người dùng bao gồm
cả thư rác và thư hợp lệ
Tiếp theo, quá trình tiền xử lý (pre-proccessor) diễn ra, trích xuất lấy từ/cụm từ chính (tokenization), loại bỏ các ký tag HTML, header MIME hoặc
các từ nối như “rằng”, “thì”,…
Sau đó, bộ lọc sẽ trích xuất đặc tính (feature extraction) và bằng cách sử
dụng biểu thức vectơ phân loại dữ liệu thành hai tập hợp
Cuối cùng, kỹ thuật học máy (machine learning) được áp dụng để huấn
luyện bộ thư mẫu để xác định thư điện tử cho dù đó là thư rác hay hợp pháp Quyết định cuối cùng thực hiện qua hai bước; thông qua việc tự học và kết quả của bộ lọc để quyết định thư điện tử là thư rác hay thư hợp lệ
1.4.8 Mô hình lọc thư rác của Zimbra
1.4.8.1 Thành phần của Zimbra
Zimbra là một ứng dụng máy chủ thư điện tử mã nguồn mở nổi tiếng, trong đó có tích hợp ứng dụng lọc thư rác mã nguồn mở SpamAssassin Zimbra nhận thư qua SMTP và định tuyến từng thư, sử dụng Giao thức truyền thư cục
bộ (LMTP), đến máy chủ hộp thư Zimbra thích hợp Máy chủ gửi thư Zimbra MTA bao gồm các chương trình sau:
• Postfix MTA: để định tuyến thư, chuyển tiếp thư và chặn tệp đính kèm
Tiền xử lý Vectơ hóa
Mô Hình
Tự học
Bộ phân loại
Trích xuất đặc trưng
Tập mẫu kiểm thử
Tập mẫu huấn luyện
Đưa ra quyết định
Trang 21• Clam AntiVirus: một công cụ chống vi-rút được sử dụng để quét các
thư và tệp đính kèm trong thư để tìm vi-rút
• SpamAssassin và DSPAM: bộ lọc thư rác
• Amavisd-New: một bộ lọc nội dung Postfix được sử dụng làm giao
diện giữa Postfix và ClamAV/SpamAssassin
Trong bộ Zimbra, chuyển và gửi thư là các chức năng riêng biệt Postfix chủ yếu hoạt động như một tác nhân chuyển thư (MTA) và máy chủ thư Zimbra hoạt động như một tác nhân chuyển thư (MDA) Cấu hình MTA được lưu trữ trong LDAP và tập lệnh cấu hình tự động thăm dò thư mục LDAP hai phút một lần để sửa đổi và cập nhật tệp cấu hình Postfix
1.4.8.2 Gửi và nhận thư trên Zimbra
Máy chủ gửi thư Zimbra (Zimbra MTA) cung cấp cả cho thư đến và thư đi Đối với thư đi, Zimbra MTA xác định điểm đến của địa chỉ người nhận Nếu máy chủ đích là cục bộ, thông báo sẽ được chuyển đến máy chủ Zimbra để gửi Nếu máy chủ đích là máy chủ thư từ xa, Zimbra MTA phải thiết lập phương thức giao tiếp để chuyển thư đến máy chủ từ xa
Đối với các thư đến, MTA có thể phải chấp nhận các yêu cầu kết nối từ các máy chủ thư từ xa và nhận thư cho người dùng cục bộ Để gửi và nhận email, Zimbra MTA phải được định cấu hình bản ghi A và MX trong DNS Để gửi thư, MTA phải sử dụng DNS để phân giải tên máy chủ và thông tin định tuyến email Để nhận thư, bản ghi MX phải được định cấu hình chính xác để định tuyến thư đến máy chủ thư Bạn phải định cấu hình một máy chủ chuyển tiếp nếu máy chủ không chạy DNS Ngay cả khi máy chủ chuyển tiếp được cấu hình, bản ghi MX vẫn được yêu cầu nếu máy chủ sẽ nhận thư từ internet
Hình 1.7: Mô hình xử lý thư của Zimbra [10]
Trang 22Hình 1.5 mô tả phương thức xử lý khi nhận được thư Khi Zimbra MTA nhận được thư, nó định tuyến thư qua một loạt các hàng đợi để quản lý việc gửi Zimbra MTA duy trì bốn hàng đợi nơi thư tạm thời được đặt trong khi được
xử lý: incoming (mới đến), active (đang hoạt động), deferred (hoãn) và hold (giữ)
• Mới đến: Hàng đợi thư đến chứa thư vừa mới nhận được Mỗi thư
được xác định bằng một tên tệp duy nhất Thư trong hàng đợi mới đến
được chuyển đến hàng đợi active khi còn chỗ trong hàng đợi hiện hoạt
Nếu không có vấn đề gì, tin nhắn sẽ di chuyển qua hàng đợi này rất nhanh
• Đang hoạt động: Hàng đợi tin nhắn đang hoạt động chứa các tin nhắn
đã sẵn sàng được gửi đi MTA đặt giới hạn cho số lượng thư có thể có trong hàng đợi đang hoạt động Từ đây, thư được chuyển đến và đi từ
bộ lọc chống vi-rút (Amavisd-N, clamAV) và chống thư rác (Spamassassin) trước khi được gửi hoặc chuyển sang hàng đợi khác
• Hoãn lại Tin nhắn không thể gửi được vì một lý do nào đó được đưa
vào hàng đợi hoãn lại Lý do phân phối không thành công được ghi lại trong một tệp trong hàng đợi hoãn lại Hàng đợi này được quét thường xuyên để gửi lại tin nhắn Nếu tin nhắn không thể được gửi sau số lần gửi lại đã đặt, thì tin nhắn sẽ không thành công Thư được gửi trả lại cho người gửi ban đầu
1.4.8.3 Mô đun lọc thư rác Spamassassin
Mô đun Mail:: SpamAssassin là một mô-đun được tích hợp trong Zimbra để xác định thư rác bằng một số phương pháp bao gồm phân tích văn bản, danh sách đen thời gian thực dựa trên internet, phân tích thống kê và thuật toán hàm băm Bằng cách sử dụng các tập luật của mình, Spamassassin kiểm tra tiêu đề thư và nội dung thư để xác định "thư rác", Sau khi được xác định là thư rác, thư sau đó có thể được gắn thẻ là thư rác để lọc sau bằng ứng dụng gửi nhận thư (MUA) của người dùng hoặc máy chủ chuyển thư (MTA) của người dùng [10]
SpamAssassin được viết bằng ngôn ngữ Perl linh hoạt nhưng vì SpamAssassin không có chức năng nhận hoặc gửi E-mail, nó phải tích hợp với MTA chẳng hạn như Postfix
SpamAssassin có các tính năng sau:
• Kiểm tra tiêu đề thư
• Kiểm tra cụm từ trong nội dung thư
Trang 23• Lọc Nạve Bayes
• Kiểm tra địa chỉ trong danh sách đen/danh sách trắng tự động
• Kiểm tra địa chỉ trong danh sách đen/danh sách trắng thủ cơng
• Kiểm tra bằng cách sử dụng cơ sở dữ liệu nhận dạng thư rác cộng tác
• Kiểm tra bằng cách sử dụng danh sách chặn DNS
• Kiểm tra bộ ký tự và ngơn ngữ
Khi bất kỳ một trong các phương pháp kiểm tra này cĩ thể khơng xác định được thư rác hay thư hợp lệ một cách chính xác, thì cĩ thể đưa ra phán đốn chính xác chỉ tổng hợp điểm của các biện pháp trên [10] [11] Ví dụ, hình 1.6 thể hiện chi tiết điểm số được ở hiển thị tiêu đề của email được đánh giá là thư rác thơng qua SpamAssassin
Hình 1.8: Chi tiết điểm số trên tiêu đề thư rác được đánh dấu bởi Spamassassin
Trong đĩ, tổng số điểm được tính từ nhiều phương thức khác nhau như Bayes_95, kiểm tra xác thực DKIM, kiểm tra tiêu đề thư, kiểm tra bộ ký tự ASCII và các điểm từ các cách kiểm tra khác
SpamAssassin lọc thư thơng qua các bộ luật của nĩ Cơ chế luật sẽ quyết định bộ luật nào được sử dụng, bao gồm bộ luật lọc Nạve Bayes, kiểm tra mạng và danh sách trắng và đen tự động [11] Sơ đồ cấu tạo về mơ đun lọc SpamAssassin được hiển thị ở hình sau đây:
Hình 1.9: Thành phần chính của mơ đun lọc của Spamassassin [11]
Trang 24SpamAssassin sử dụng nhiều cơ sở dữ liệu khác nhau để thực hiện cơng việc của mình [11] Cơ sở dữ liệu thống kê được tạo nên từ việc huấn luyện dữ liệu mẫu dùng thuật tốn Nạve Bayes, trong khi đĩ cơ sở các tập luật đa dạng hơn,
cĩ thể cĩ tự động từ bản phân phối Spamassassin, hoặc cập nhật thủ cơng hay
do người dùng tự xây dựng hoặc sưu tầm Danh sách đen hoặc trắng cĩ thể được tạo thủ cơng hoặc cập nhật từ các máy chủ cung cấp danh sách đen/trắng thời gian thực Trong khi kiểm tra mạng (network test) thì lấy thơng tin từ các nguồn cơ sở dữ liệu khác được chia sẻ
SpamAssassin hỗ trợ một số thành phần tùy chọn để tăng độ chính xác Cùng với huấn luyện Nạve Bayes, bộ 'kiểm tra mạng' làm giảm một nửa tỷ lệ âm tính giả [11] Theo mặc định, hầu hết các bản cài đặt SpamAssassin khơng bật kiểm tra mạng, vì nĩ sẽ tạo ra độ trễ nhỏ khi thư đi qua bộ lọc, làm tăng tải bộ nhớ hệ thống Một số nội dung kiểm tra mạng như sau:
• Danh sách chặn DNS (DnsBlocklists): Đây là một dịch vụ trong đĩ máy chủ thư truy vấn tên miền cĩ thể kiểm tra xem địa chỉ IP đang gửi
cĩ nằm trong danh sách đen hay khơng Hầu hết phần mềm máy chủ thư cĩ thể được cấu hình để kiểm tra một hoặc nhiều danh sách như vậy - thường từ chối hoặc gắn cờ thư nếu nĩ đến từ một trang được liệt kê.Cĩ rất nhiều danh sách DNSBL đang tồn tại, liệt kê địa chỉ của các máy tính zombie hoặc các máy khác đang được sử dụng để gửi thư rác, các nhà cung cấp dịch vụ Internet (ISP) cung cấp dịch vụ gửi thư rác hoặc những người đã gửi thư rác đến hệ thống honeypot
• Cơ sở dữ liệu nhận dạng thư rác cộng tác (HashSharingSystem) SpamAssassin bao gồm kỹ thuật hỗ trợ cho kiểm tra mạng dựa trên các phương pháp tính hàm băm khác nhau, so sánh chữ ký (signature) của các thư đã nhận với danh sách chia sẻ của các thư rác
• Một số cơ sở dữ liệu chia sẻ trên mạng miễn phí cho việc kiểm tra thư rác nổi tiếng như cơ sở dữ liệu Razor, cơ sở dữ liệu Pyzor hay DCC…
Trang 25Chương 2 Các kỹ thuật lọc thư rác thư rác
2.1 Các kỹ thuật giảm thiểu thư rác
2.1.1 Lọc IP
Khi máy khách khởi tạo kết nối SMTP để gửi thư, một kết nối TCP/IP với máy chủ gửi thư được thiết lập trên mạng Địa chỉ IP của người gửi có thể
dễ dàng xác định và là thông tin đầu tiên máy chủ có thể nhận diện được Trên
cơ sở địa chỉ IP, máy chủ có thể quyết định chấp nhận hoặc từ chối kết nối
Nếu địa chỉ IP được liên kết với một khách hàng đã gửi thư rác trong quá khứ, kết nối có thể bị từ chối Quy trình này được biểu thị là "danh sách
đen" (blacklisting) Những địa chỉ IP đáng ngờ được lưu trữ trên danh sách
đen Đôi khi, thậm chí toàn bộ dải mạng là các phần tử của danh sách đen, ví dụ: dải IP được chỉ định cho các miền cụ thể
Tương tự, địa chỉ IP có thể thuộc về một ứng dụng gửi thư đáng tin cậy, máy chủ sẽ chấp nhận kết nối, phương pháp này được gọi là “danh sách trắng”
(white-listing) Giống như danh sách đen, danh sách trắng có thể được duy trì
cục bộ hoặc được cung cấp công khai Khi chúng được cung cấp qua máy chủ tên miền được gọi là DNSWL - danh sách trắng của hệ thống tên miền [2] Không giống như danh sách đen, tính cập nhật của họ ít quan trọng hơn Sử dụng duy nhất phương thức danh sách trắng không thể đạt hiệu quả trong việc đối phó với thư rác vì tỷ lệ dương tính giả quá cao (e-mail từ những người gửi không xác định sẽ bị chặn); âm tính giả thì rất hiếm gặp vì người gửi có thể dễ dàng xác định được [2] Do đó, phương pháp này nên được sử dụng như là biện pháp bổ sung và các e-mail từ các máy chủ được đưa vào danh sách trắng không nhất thiết phải kiểm tra
Lọc IP rất dễ thực hiện và không tiêu tốn nhiều tài nguyên, vì quyết định chấp nhận/từ chối kết nối được thực hiện ở giai đoạn đầu khởi tạo kết nối Điều này có nghĩa là ứng dụng chuyển thư không tiêu tốn nhiều thời gian và CPU không phải lưu trữ thư mà sau này được xác định là thư rác
Hạn chế của việc lọc IP bao gồm các vấn đề sau:
Phương pháp sẽ không thành công nếu địa chỉ IP của khách hàng bị giả mạo Giả mạo IP là một vấn đề tồn đọng của bộ giao thức TCP/IP Tuy nhiên,
vì những lý do sau, giả mạo IP dường như không là một vấn đề thực sự: (1)
Trang 26Vì kết nối gửi thư dựa trên kết nối TCP với quá trình bắt tay 3 bước, việc giả mạo IP không dễ dàng và đòi hỏi người có kiến thức và kỹ thuật cao, (2) một mạng có thể được bảo vệ khỏi giả mạo IP với một số kỹ thuật phòng chống đơn giản, (3) chặn IP thường không phải là chính sách chống thư rác duy nhất được triển khai ngày nay [2]
Tính năng chặn IP hoạt động theo nguyên tắc và thường gặp lỗi khi phân loại: dương tính giả (nếu kết nối của thư hợp lệ bị từ chối) và âm tính giả (nếu kết nối của thư rác được chấp nhận)
2.1.2 Danh sách xám và phản hồi - thách thức
Phương pháp danh sách xám (greylisting) thì những thư điện tử không
nằm trong danh sách máy chủ sẽ được phản hồi là tạm thời không gửi được [12] Đối với những người thư điện tử bình thường, MTA sẽ gửi lại thư điện tử sau khi nhận được phản hồi, tức là máy chủ sẽ gửi lại khi nhận được thư điện
tử thành công Nhưng đối với thư rác, thư điện tử có xu hướng được gửi thông qua server trung gian mở, không thể gửi lại phản hồi, do đó không thể liên lạc được với thư điện tử người nhận Nhược điểm của phương pháp này là sẽ có một số độ trễ trong việc gửi thư điện tử thông thường Phương pháp này đã thêm chiến lược phản ứng-thách thức trên cơ sở của danh sách trắng Địa chỉ thư điện tử từ danh sách trắng sẽ được nhận thành công Nhưng khi địa chỉ ngoài danh sách, máy chủ sẽ gửi một thách thức cho người gửi để "kiểm tra" Thư điện tử sẽ đến hòm thư người nhận với điều kiện người gửi phải đã vượt qua bài kiểm tra và địa chỉ thư điện tử của người gửi tương ứng sẽ được thêm vào vào danh sách trắng ban đầu Người gửi thư rác thường sẽ sử dụng 'địa chỉ người gửi giả mạo' để tránh các dấu vết ngược lại và dự kiến sẽ không nhận được bất kỳ các kết quả kiểm tra nào Hai phương pháp này lợi dụng thực tế là thư rác không thể đưa ra phản hồi tương ứng để đánh giá các loại thư điện tử Tuy nhiên, quá trình đưa ra phản hồi có nghĩa là thời gian gửi nhận thư điện tử
bị trì hoãn và chiếm băng thông của internet [12]
2.1.3 Cải thiện xác thực thư để phòng chống thư rác
2.1.3.1 Xác thực thư điện tử
Xác thực thư điện tử là một kỹ thuật được sử dụng để cải thiện khả năng gửi thư điện tử (giảm nguy cơ thư điện tử nằm trong thư mục spam của người nhận) Nó cho phép các bộ lọc chống thư rác xác minh tốt hơn danh tính của người gửi và ngăn chặn các hành vi giả mạo và lừa đảo
Trang 27Mail From: Là địa chỉ thư điện tử của người gửi Địa chỉ này được đính
kèm phong bì thư SMTP
Display from: Đây là địa chỉ thư điện tử được hiển thị cho người dùng
cuối trong ứng dụng thư điện tử của họ Địa chỉ này được chứa trong tiêu đề của thư điện tử Ứng dụng thư điện tử khách không có quyền truy cập vào phong bì SMTP (và do đó không thể thấy địa chỉ MAIL FROM nói trên) Địa
chỉ của Display from hiển thị có thể khác với địa chỉ Mail from
Có 3 giao thức chính cho phép xác thực thư điện tử:
2.1.3.2 Chữ ký DKIM
Người gửi tạo giá trị băm MD5 của một số phần tử của thư điện tử (ví dụ: tiêu đề thư điện tử) Sau đó, người gửi sử dụng khóa riêng tư để mã hóa băm MD5 Chuỗi mã hóa được chèn vào thư, được gọi là chữ ký DKIM Người gửi lưu trữ khóa công khai trong bản ghi DNS
Người nhận tìm thấy khóa công khai từ máy chủ tên miền của mình Sau
đó, người nhận sử dụng khóa công khai này để giải mã chữ ký DKIM từ thư điện tử được nhận Người nhận tạo một hàm băm MD5 mới từ các phần tử của thư điện tử được DKIM ký và so sánh nó với hàm băm MD5 ban đầu Nếu khớp, người nhận biết rằng:
- Chủ sở hữu của tên miền đó là người gửi thư điện tử (về mặt toán học hầu như không thể giả mạo chữ ký DKIM để giải mã thành hàm băm MD5 ban đầu bằng khóa công khai)
- Nội dung thư điện tử được DKIM ký không bị thay đổi trong quá trình chuyển tiếp (nếu không thì giá trị băm MD5 ban đầu và giá trị băm MD5 do người nhận tạo sẽ không khớp)
Điểm thiếu sót của DKIM là nó chỉ có thể bảo vệ thư đã được ký
2.1.3.3 Khung chính sách người gửi
Khung chính sách người gửi (viết tắt là SPF)- cho phép công khai địa chỉ máy chủ chuyển thư nào có thể gửi thư điện tử cho tên miền đó
Máy chủ nhận kiểm tra xem SPF có tồn tại tên miền đó ở trong mục MAIL FROM hay không Nếu SPF tồn tại, người nhận sẽ kiểm tra xem địa chỉ
IP của máy chủ gửi có khớp trong danh sách IP trong SPF hay không Nếu khớp nghĩa là địa chỉ máy chủ là đúng, hợp lệ, nếu không nghĩa là thư được gửi từ máy chủ giả mạo
Trang 282.1.3.4 Xác thực thư theo tên miền, báo cáo và tuân thủ DMARC
DMARC được xây dựng dựa trên SPF và DKIM để giải quyết những thiếu sót của hai tiêu chuẩn xác thực này DMARC cho phép xác thực DKIM
hoặc SPF và xác nhận rằng địa chỉ trong trường Display From là xác thực
Người gửi có thể chọn thêm chính sách DMARC trong tên miền
Người nhận tra cứu chính sách DMARC trong tên miền; thực hiện xác thực chữ ký DKIM và / hoặc xác thực SPF; thực hiện kiểm tra liên kết miền;
áp dụng chính sách DMARC
Việc liên kết miền bao gồm việc xác minh rằng địa chỉ được hiển thị cho người nhận cuối cùng trùng khớp với
- Đối với SPF, trùng với miền người gửi (mail from)
- Đối với DKIM, giá trị d phải trùng với tên miền được ký trong
tiêu đề cùng với giá trị băm được mã hóa
2.1.4 Bảo vệ địa chỉ
Tài liệu tham khảo [12] đã đề cập đến một phương thức tương đối đơn giản để đối phó với thư rác, đó là thay đổi các địa chỉ thư điện tử, ví dụ: chuyển đổi địa chỉ thư điện tử “tennguoidung.com” thành “tennguoidung # domain.com” hoặc “tennguoidung AT domain.com”, và có thể thay đổi dấu “.” thành “DOT” cũng khá hiệu quả Bằng cách đó, chúng ta có thể ngăn chặn thư rác thu thập thư điện tử qua các trang web thông qua kỹ năng dò tìm thư Tuy nhiên, khả năng bảo vệ của công nghệ này khá yếu Thư rác người gửi vẫn có thể trích xuất địa chỉ thư điện tử thực bằng cách thêm một số mã nhận dạng đơn giản khi thu thập địa chỉ thư điện tử Hiện tại, thông qua tấn công từ điển, phần mềm thu thập thư điện tử có thể kiểm tra số ID của máy chủ thư, cũng như trích xuất địa chỉ thư điện tử của trang không phải tài liệu (như DOCJPEGPDFXLSRTFPPT) trên internet
Trang 29bộ lọc chống thư rác tương tự như một bộ lọc chống vi rút là quét các tệp để kiểm tra chữ ký của vi-rút
Trên thực tế, nhiều kỹ thuật lọc dựa trên về các phương pháp phân loại văn bản [12] [13] phân lọc thư dựa trên cách phân loại từ Các từ ngữ sẽ được xác định rõ và cho điểm dựa trên khả năng xuất hiện từ đó trong thư rác Thư
có số điểm cao quá ngưỡng sẽ được đánh dấu là thư rác Thư có số điểm thấp hơn ngưỡng được đánh dấu là thư hợp lệ (ham)
Cách thứ hai được thực hiện bằng cách sử dụng các kỹ thuật học máy [13] [14] Nó thuận tiện khi các đặc điểm xác định thư rác là không được xác định rõ và phong phú Những kỹ thuật này cố gắng tạo ra một tập hợp các mẫu, gần như tự động hoặc bán tự động phân loại với tỷ lệ lỗi có thể chấp nhận được
Để lọc thư rác, bước quan trọng là phải trích xuất đặc tính từ văn bản Phần tiếp theo sẽ trình bày các kỹ thuật trích xuất thư điện tử và sau đó là các
kỹ thuật lọc thư rác
2.2.1 Phương thức trích xuất thư điện tử
Tính năng trích xuất thư điện tử là một phần thiết yếu trong hệ thống phát hiện thư rác Độ chính xác, tính phân loại và khả năng thích ứng của cách tiếp cận trích xuất có thể ảnh hưởng trực tiếp đến kết quả và hiệu suất phân loại Theo báo cáo của Hiệp hội Internet Trung Quốc [12], dạng thư rác chủ
yếu được chia thành ba danh mục: văn bản và hình ảnh, chỉ văn bản và chỉ hình
ảnh Phần này đánh giá các phương pháp trích xuất tính năng cổ điển dựa trên văn bản, hình ảnh và hành vi
2.2.1.1 Lựa chọn thuật ngữ
• Lấy thông tin (IG)
Trong lý thuyết thông tin, entropy còn được gọi là khoảng cách Kullback-Leibler Nó có thể đo khoảng cách của tổng của hai xác suất Trong các nghiên cứu về lọc thư rác, nó được sử dụng để đo lường mức độ “tốt” của các thuật ngữ hoặc tính năng [12] Theo cách thức này, khi biết một cụm từ
Trang 30nhất định có xuất hiện trong thư điện tử hay không, chúng ta có thể tính toán lượng thông tin về các loại thư điện tử nhận được
),(log),()
(
l
s C i i C
i
C P T P
C T P C
T P t
I
1
trong đó C đại diện cho loại thư, cs và cl chỉ ra rằng các loại thư là thư rác và thư hợp lệ, ti là thuật ngữ xuất hiện trong thư điện tử, trong khi ti hiển thị thuật ngữ không có trong thư điện tử
Theo công thức này, entropy thông tin của mỗi số hạng sẽ được tính toán
và số hạng lớn hơn sẽ được chọn để bước vào giai đoạn tiếp theo
• Phương sai tần số thuật ngữ (TFV)
Koprinska và cộng sự phát triển phương pháp phương sai tần số thuật ngữ (TFV) để chọn các cụm từ có phương sai tần suất lớn [12] Họ nghĩ rằng các thuật ngữ có phương sai tần suất thuật ngữ lớn chứa nhiều thông tin hơn Theo chiến lược này, những cụm từ có xu hướng xuất hiện trong cùng một loại thư điện tử (thư rác hoặc thư điện tử thông thường) sẽ được chọn trong khi những cụm từ có tần suất cụm từ tương đương trong hai loại sẽ bị loại bỏ Trong nghiên cứu phát hiện thư rác, phương sai tần suất thuật ngữ được xác định như sau:
trong đó Tf (ti, C) là tần suất xuất hiện của thuật ngữ ti,
𝑇𝑓𝜇(𝑡𝑖)là tần suất xuất hiện trung bình của thuật ngữ ti trong cả hai loại thư điện tử
Nghiên cứu [15] cho thấy hiệu suất của TFV tốt hơn IG trong hầu hết các trường hợp Chọn 100 thuật ngữ đầu của TFV và IG cho thấy rằng các thuật ngữ này có hai đặc điểm: 1) thường xuyên xuất hiện trong các thư điện tử liên quan đến ngôn ngữ học; 2) thường xuyên xuất hiện trong thư rác nhưng hiếm khi xuất hiện trong các thư điện tử hợp pháp
Trang 31• Tần suất tài liệu (DF)
Tần suất tài liệu là tổng tần suất của một thuật ngữ cụ thể trong toàn bộ tập huấn luyện [12] Theo chiến lược này, thuật ngữ có tần suất tài liệu lớn hơn ngưỡng sẽ được chọn Công thức của DF như sau,
D (t i ) = | {m j | m j∈ M, và t i∈ m j } | 3
trong đó M đại diện cho toàn bộ tập huấn luyện,
m j đại diện cho một thư điện tử duy nhất trong M,
t i là tài liệu cần nghiên cứu
DF chỉ ra rằng các thuật ngữ tần suất thấp có ít thông tin, vì vậy sẽ không
có gì khác biệt khi các thuật ngữ này bị loại bỏ Nghiên cứu [15] cho thấy rằng khi loại bỏ 90% số hạng tần số thấp, hiệu suất của DF và IG là tương tự Ưu điểm của DF là độ phức tạp tính toán thấp và tăng tỷ lệ tuyến tính
2.2.1.2 Trích xuất đặc tính văn bản
Việc trích xuất đặc tính thư điện tử dựa trên văn bản thường bao gồm hai bước: 1) Lựa chọn cụm từ Dựa trên tầm quan trọng, các thuật ngữ đặc biệt được chọn để bước vào giai đoạn tiếp theo 2) Trích xuất tính năng và hiển thị Các tính năng của thư điện tử được trích xuất và hiển thị, được thể hiện trong một thể thống nhất
• Túi từ
Cách tiếp cận này còn được gọi là mô hình không gian vectơ, là một trong những các phương pháp khai thác tính năng được sử dụng rộng rãi trong phát hiện thư rác [12] Nó chuyển đổi mỗi thư điện tử thành một vectơ đặc trưng n chiều <x1, x2, , xn> và quan sát xem thuật ngữ có xuất hiện trong thư điện
tử hay không Trong cách tiếp cận này, giá trị xi của Xi là chức năng của thuật ngữ ti Thông thường có hai loại đại diện cho xi : kiểu boolean và kiểu tần số [12] Trong loại boolean, xi được gán ở chế độ: nếu ti xảy ra trong thư điện tử, thì xi là 1 và ngược lại, xi là 0 Trong loại tần số, xi là tần suất của thuật ngữ ti Trong các thí nghiệm của Schneider, hiệu suất của hai loại biểu diễn là tương
tự [12]
Trang 32• Băm đa thức nhị phân thưa thớt (SBPH)
Phương pháp này sử dụng cửa sổ trượt để trích xuất các tính năng khác nhau từ thư điện tử [12] Cửa sổ trượt có độ dài N-thuật ngữ sẽ duyệt thư điện
tử và từng bước di chuyển tuần tự Trong mỗi lần dịch chuyển cửa sổ sẽ trích xuất 2N-1 đặc trưng: các thuật ngữ mới trong cửa sổ được bảo lưu và các thuật ngữ khác được bảo lưu hoặc xóa Và có 2N-1 đặc trưng cho N-1 thuật ngữ trong cửa sổ, vì vậy chúng tôi có thể có được 2N-1 tính năng Sau đó, mỗi tính năng được chuyển đổi thành một giá trị băm cụ thể Sau khi trích xuất các tính năng, phương pháp sẽ chọn các thuật ngữ bằng các phương pháp lựa chọn thuật ngữ trước đây, có độ chính xác cao nhưng cũng phức tạp về mặt tính toán
• Bigrams thưa thớt trực giao (OSB)
Để giảm bớt sự dư thừa và phức tạp của SBPH, Siefkes đề xuất thuật toán bigrams thưa thớt trực giao (viết tắt là OSB) để trích xuất tập đặc tính nhỏ hơn, trong đó sử dụng cửa sổ trượt dài hạn N [12] Điều khác biệt so với SPBH
là rằng chỉ những thuật ngữ phổ biến mới được OSB trích xuất Đối với mỗi cửa sổ, thuật ngữ chung sẽ được bảo lưu và chọn N-1 thuật ngữ để phù hợp với
nó Do đó, mỗi cửa sổ có thể tạo N-1 cặp thuật ngữ để phản ánh N-1 đặc tính
So với SBPH, nó có thể giảm số lượng tính năng Nghiên cứu cho thấy hiệu suất của OSB tốt hơn SBPH [12]
• Hệ thống miễn dịch nhân tạo (AIS)
Oda và cộng sự đã thiết kế một hệ thống miễn dịch chống thư rác, sử dụng biểu thức chính quy để tạo ra kháng thể (máy dò) [12] Ứng dụng biểu thức chính quy làm cho mọi kháng thể khớp với kháng nguyên lớn (spam), có thể giảm số lượng các đặc tính một cách hiệu quả Hệ thống miễn dịch sinh học (BIS) đánh trọng số cho mỗi kháng thể Khi bắt đầu thuật toán, trọng số của kháng thể được khởi tạo với giá trị mặc định Sau một thời gian chạy, kháng thể phù hợp với thư rác hơn sẽ tăng trọng số lên và những kháng thể phù hợp với thư hợp
lệ sẽ giảm trọng số Khi trọng số của kháng thể nhỏ hơn giá trị ngưỡng, kháng thể sẽ bị loại bỏ khỏi mô hình
Trang 332.2.1.3 Trích xuất thư điện tử có hình ảnh
Bên cạnh nội dung văn bản, thư điện tử đôi khi chứa cả hình ảnh Thông thường thư điện tử, thường có hình ảnh đính kèm là ảnh đời thường về chân dung, phong cảnh, kiến trúc và các nội dung khác để giao tiếp hàng ngày trong cuộc sống và công việc Trong khi thư rác, hình ảnh luôn chứa thông tin văn bản cho mục đích của quảng cáo và tiếp thị [12] Do đó, có sự khác biệt rõ ràng giữa hình ảnh trên thư rác và hình ảnh bình thường về thuộc tính hình ảnh, màu sắc, văn bản, nền, v.v và một số tính năng dựa trên hình ảnh Các phương pháp tiếp cận trích xuất hình ảnh đã được đề xuất dựa theo sự khác biệt đáng kể giữa hai loại ảnh này
• Thuộc tính của hình ảnh
Vì thư rác được gửi với số lượng lớn, những người gửi thư rác thường kiểm soát kích cỡ của hình ảnh để giảm băng thông mạng và tăng hiệu quả truyền tải Điều này làm cho các thuộc tính của một hình ảnh thư rác khác đáng
kể khác với hình ảnh bình thường Nghiên cứu [16] trích xuất thuộc tính thông tin về hình ảnh dưới dạng vectơ đặc trưng, bao gồm kích thước lưu trữ, độ dài hình ảnh, chiều rộng hình ảnh, các định dạng nén hình ảnh và các thông tin khác Nghiên cứu này phân tích và so sánh hai phương pháp phát hiện hình ảnh thư rác Đầu tiên, họ xem xét phân tích thành phần chính (PCA), trong đó họ xác định các eigenvectơ tương ứng với một tập hợp các hình ảnh của thư rác
và tính toán điểm bằng cách chiếu hình ảnh lên không gian eigens Cách tiếp cận thứ hai tập trung vào việc trích xuất một tập hợp chung của các tính năng hình ảnh và lựa chọn một tập hợp con tối ưu bằng cách sử dụng máy vectơ hỗ trợ (SVM) Cả hai chiến lược phát hiện này đều cung cấp độ chính xác cao với
độ phức tạp tính toán thấp Hơn nữa, nghiên cứu phát triển một bộ dữ liệu hình ảnh spam mới chưa bị phát hiện bằng cách sử dụng phương pháp PCA hoặc SVM Bộ dữ liệu mới này sẽ tỏ ra có giá trị trong việc cải thiện khả năng phát hiện spam hình ảnh Tương tự, Uemura et al sử dụng tên hình ảnh, kích thước lưu trữ làm các tính năng và đồng thời bổ sung thông tin tỷ lệ nén hình ảnh [12] Họ chỉ ra rằng hình ảnh spam thường có tỷ lệ nén cao hơn của một hình ảnh bình thường vì nội dung của một hình ảnh spam tương đối đơn giản Nghiên cứu cũng chỉ ra rằng tỷ lệ khung hình của một hình ảnh spam là khá
Trang 34khác với hình ảnh bình thường [12] Có một số lượng lớn các biểu ngữ giữa các hình ảnh spam và sự khác biệt giữa chiều dài và chiều rộng của một hình ảnh biểu ngữ là hiển nhiên
• Tính năng màu sắc và kết cấu của hình ảnh
Phân tích [12] chỉ ra rằng hình ảnh bình thường có màu sắc khác nhau đáng kể trong khi đó có sự khác biệt đáng kể giữa các thư rác hình ảnh và hình ảnh bình thường về khía cạnh phân bố màu sắc, cường độ màu, Sự giống nhau giữa các vùng của một hình ảnh thư hợp lệ khá cao, trong khi các ảnh thư rác
có màu sắc không đồng nhất Độ bão hòa màu của ảnh thư rác cũng khác với ảnh bình thường Hình ảnh được chia thành nhiều danh mục bằng cách trích xuất các đặc điểm màu này, trong đó năm loại hình ảnh thư rác thường thấy bao gồm hình ảnh tổng hợp, hình nền phức tạp, v.v., và ba loại hình ảnh bình thường, cụ thể là ảnh chụp, bản đồ và truyện tranh Nghiên cứu cũng chỉ ra rằng sự phân bố màu sắc của hình ảnh thư rác không mượt như hình ảnh bình thường, bởi vì các hình ảnh trong thư rác nói chung là tổng hợp và chứa các vật rõ ràng và sắc nét Vì số lượng thư điện tử rác được gửi là rất lớn, các hình ảnh thư rác được gửi trong cùng một đợt nói chung có rất nhiều điểm tương đồng Trong giai đoạn huấn luyện, khoảng cách tương tự giữa hình ảnh thư rác
và hình ảnh bình thường được tính toán và khoảng cách tương tự tối thiểu được
sử dụng để tạo thành giá trị ngưỡng Trong giai đoạn phân loại, sẽ tính ra điểm tương đồng giữa vectơ đặc trưng của hình ảnh mới Vectơ trong thư viện được tính toán và tạo danh mục hình ảnh mới thông qua trọng số
• Tính năng cạnh ký tự
Trên cơ sở trích xuất cạnh của ký tự theo chiều dọc, hình ảnh được chia thành vùng văn bản và vùng không phải văn bản bằng cách tính độ giống nhau của cạnh ký tự trong mỗi vùng và hợp nhất các vùng tương tự [12] Sau sự phân chia, các tính năng của mỗi hình ảnh được xây dựng bằng cách tính toán kích thước của văn bản vùng trong mỗi hình ảnh cũng như độ bão hòa màu và
độ đồng nhất màu ở các vùng văn bản và vùng không phải văn bản tương ứng Cuối cùng, vectơ đặc trưng của một thư điện tử đạt được bằng cách tính tổng trọng số các tính năng liên quan của tất cả các hình ảnh có trong thư điện tử
Trang 35tùy theo diện tích của mỗi hình ảnh sử dụng máy vectơ hỗ trợ (SVM) để phân loại Ngoài ra, tuật toán tăng cường cũng được sử dụng để phát hiện mẫu bằng cách huấn luyện về mẫu tính năng để phát hiện văn bản các khu vực trong hình ảnh [12]
• Các tính năng dựa trên OCR
Để tránh bộ lọc thư rác, những người gửi thư rác thường gửi hình ảnh thay vì văn bản Các bộ lọc thư rác hình ảnh truyền thống có những điểm yếu trong việc quét tài liệu và ảnh Tài liệu [17] đề xuất trích xuất thông tin văn bản trong hình ảnh bằng cách sử dụng Quang học nhận dạng ký tự (OCR) và thông tin văn bản được xử lý thêm bằng cách áp dụng các phương pháp tiếp cận dựa trên văn bản Xem xét tính toán cao độ phức tạp của công nghệ OCR,
họ cũng chỉ ra rằng phương pháp này nên kết hợp với những phương pháp lọc khác và chỉ áp dụng cho những thư điện tử khó phân loại Do đó, trong nghiên cứu [17] đã đề xuất phân loại ảnh thư theo chữ cái và hình ảnh [18]
Trích xuất tính năng dựa trên OCR chỉ có thể đạt được hiệu suất tốt khi không có tạp âm trong thư rác hình ảnh [12] Để chống lại phương pháp phát hiện dựa trên OCR, những kẻ gửi thư rác thêm nhiễu thông tin vào các hình ảnh spam, chẳng hạn như phông chữ hỗn hợp, nền mờ, biến dạng văn bản, v.v Tuy nhiên, những thông tin nhiễu này đã trở thành tính năng phân biệt ảnh trong thư rác với ảnh bình thường Phân tích nguyên tắc chính của các kỹ thuật làm mờ đối với hình ảnh spam cũng như tác động chính của các kỹ thuật này đối với OCR, và hơn thế nữa, có thể trích xuất các tính năng nhiễu bằng cách phát hiện bất thường trong các bước xử lý OCR Một phương pháp được đề xuất để phát hiện nhiễu trong đó hình ảnh được chuyển đổi thành một hình ảnh nhị phân và độ phức tạp của hình ảnh hiển thị được tính toán [16] [19] Vì độ phức tạp của hình ảnh bình thường nằm trong một phạm vi có giá trị khác với của hình ảnh thư rác có nhiễu, họ có thể trích xuất các đặc điểm nhiễu của ký
tự cạnh và nền bằng cách sử dụng số liệu này [17]
2.2.1.4 Trích xuất thư điện tử theo hành vi
Có sự khác biệt đáng kể giữa thư rác và thư điện tử bình thường không chỉ trên nội dung mà còn về mục đích gửi, phương thức truyền tải, phạm vi
Trang 36tương tác, v.v Ngoài ra, những người gửi spam thường thực hiện các biện pháp nhất định để tránh bộ lọc thư rác Do đó, có thể phân biệt thư rác và thư điện
tử bình thường bằng cách trích xuất các tính năng hành vi trong quá trình gửi của thư điện tử
• Đặc điểm hành vi của người gửi thư rác
Trong quá trình gửi, những kẻ gửi thư rác thường giả mạo thông tin tiêu
đề của thư điện tử để che giấu danh tính của họ Điều này làm cho thông tin tiêu đề của thư rác có sự khác biệt đáng kể so với thông tin của thư điện tử thông thường và các đặc điểm hành vi tương ứng của thư giả mạo có thể được trích xuất bằng cách phân tích thông tin tiêu đề của thư điện tử
Các tính năng hành vi đã được trích xuất để phát hiện thư rác bằng cách kiểm tra sự bất thường của mục nhập đơn lẻ được phân biệt và kiểm tra các trường thông tin trong thư điện tử header như “From”, “To”, “Delivered-To”,
“Return Path”, “Date” và các thông tin khác xem có bất thường hay không, ví
dụ như độ chính xác của định dạng, liệu nó có trống không, thời gian có hợp
lý không [12] [20] Thông qua việc phân tích các đặc điểm của thư điện tử, người ta thấy rằng có nhiều khả năng những kẻ gửi thư rác xuất hiện trong nhiều hơn một nhóm để gửi lại thư rác Nghiên cứu phân tích các liên kết URL trong thư điện tử và cụm thư điện tử bằng cách theo dõi máy chủ của các trang web được liên kết [20] Họ chỉ ra có một máy chủ thường cung cấp dịch vụ cho một số trang spam được liên kết, cho phép gửi thư điện tử [12]
• Các đặc điểm hành vi mạng của thư rác
Hành vi, đặc điểm trên mạng của thư rác và thư điện tử thông thường khá khác nhau, và các nghiên cứu đã trích xuất các đặc điểm hành vi liên quan đến địa chỉ IP, phân tích thông tin đăng nhập của hộp thư và những thay đổi về
IP đăng nhập và kết luận rằng hầu hết các thư điện tử được gửi từ địa chỉ IP động là thư rác, nghiên cứu cho thấy một nửa số thư rác trong Hotmail được gửi từ các địa chỉ IP động [12] Ngoài ra, họ phát hiện ra rằng dữ liệu lịch sử trong danh sách đen có giá trị tham chiếu tốt trong dự báo thư rác Họ đề xuất một phương pháp đánh giá theo không gian-thời gian bằng cách kết hợp các