Cũng chính vì điều này mà spammer đã tìm đủ mọi cách để thu thập địa chỉ email của người dùng, đề từ đó có thê sử dụng thông tin này vào các mục đích như gửi thư quảng cáo, bán danh sách
Trang 1NGUYEN HUY KHANG
NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ
RAC VA XAY DUNG THU NGHIEM HE THONG
LOC THU TREN LINUX
Chuyén nganh: KHOA HOC MAY TINH
Trang 2NGHIEN CUU BO LOC THONG KE KET HOP BAYESIAN -71-
4.1 GIẢI THUẬT GIẢM NHIỄU BAYESIAN (BAYESIAN NOISE
-71-
-71-
4.1.2 Giai đoạn huấn luyện tre - 72 -
- 74 -
- 75 - 4.2 VỊ TRÍ CỦA HỆ THÓNG LỌC THƯ: t2 - 76 - 4.2.1 Bố trí bộ lọc như một SMTP chuyển tiécp(SMTP relay) -77- 4.2.2 Bồ tri bé loc nhu mét tram phan phat by nbiém ow - 78 -
4.2.3 Bồ trí bộ lọc như một POP3 proxy _ HH re -79 -
4.3 CAIDAT BO LOC DSPAM TREN MOI TRUONG LINUX: - 79 -
Trang 3-_92-DANH MUC BANG BIEU VA HINH ANH
Bảng 1.1: Thông kê các dạng thự rác tại máy Chủ - c n tt 3 Hình 1.1 : Mô hình tống quát sử dụng giao thức SMTTP - cu nhnn nu nneteg 7
Hình 1.2 : Mô hình phân phối thư điện tử sử dụng giao thức POP3 9
Hình 1.3 : Mô hình gửi và nhận thư điện tử - 5 SHsHHnHHnnHt 12
Hình 1.4: Mô hình gửi nhận thư điện tử sử dụng giao thức truyền nhận thư 13
Hình 1.5 Kiến trúc tổng quát của hệ IR 11EEE BE 19
Hình 1.6 Các khôi chức năng của một hệ IR 11115112 19
Hình 1.7 Ba phép toán cơ bản của mô hình Boolean SH 21 Hình 1.8 Biểu dién vector van Dam .ccesssssssssssssssssssssssesssssssavecseseeseteceeeeeseeeeeeeeccc 23 Hình 1.9 Góc giữa hai vector van DAM uo cssssssssssssessecsesssesessssscosseesessescoscoeeececcccg 24 Hinh 2.1 Perceptron trong mang neuron nhân tạo 2 ng SH 35 Hình 2.2 Cầu trúc của một Perceptron đa tầng son on TnH HH ng 38
Hình 2.3 Lê (margir;) của siêu phẳng phân tách Ö t0 40 Hình 3.1: Hệ thong phan loai van bam .csessssssssssssssssecsssssssssssesteesosesseseeeeeeeeccccce 51
Hình 3.2: Sử dụng tập đặc trưng so Set EE nen 4 52
Hình 3.3: Biêu diễn văn bản bằng hai đặc trưng đồng thời 22 54
Hình 3.4: Văn bản biểu diễn bằng ba đặc trưng C-E-D tt 55
Hình 3.5: Mô hình tông quát phân loại thư rác ssstsesSce KTS ng, 57
Hình 3.6: Tiến trình phân loại thư rác 55G 0H02 58 Bang 3.1: Bang thắng kê sự xuất hiện của spam, nonspam trong thu điện tử 6] Bang 3.2: Bảng thống kê các token đơn lẻ của spam va nonspam với xác suất 65
Trang 4
STT | Từ viết tắt | Nội dung/Diễn giải
04 | IMAP Internet Message Access Protocol
07 | ISP Internet Service Providers
10 | LDAP Lightweight Directory Access Protocol
12 | MIME Multipurpose Internet Mail Extensions
17 | SMTP Simple Mail Transfer Protocol
18 | SPAM Stupid Pointless Annoying Messages
Trang 5
1.1 GIOI THIEU:
Truyền thông qua Internet nói chung và giao dịch trực tuyến bằng thư điện tử nói riêng đã trở thành một nhu câu không thể thiếu đối với con người trong thời đại
công nghệ thông tin hiện nay Mỗi người khi sử dụng internet đều có thể dễ dàng tạo
cho mình một hoặc nhiêu địa chỉ email đề liên lạc với người khác
Cũng chính vì điều này mà spammer đã tìm đủ mọi cách để thu thập địa chỉ
email của người dùng, đề từ đó có thê sử dụng thông tin này vào các mục đích như gửi thư quảng cáo, bán danh sách địa chỉ email người dùng cho các danh nghiệp khác để
thu về những khoản tiền lớn Thư rác ngày càng nhiều hơn và chúng tăng theo cấp số nhân
Thư rác, ngoài những thông điệp quảng cáo, tiếp thị, một số hackers còn lợi dụng việc phát tán thư rác dé tắn công vào các mail server, lợi dụng thư rác để lừa đảo trực tuyến hay cài đặt virus, chương trình gián điệp vào máy tính của người dùng, hoặc lợi dụng danh nghĩa người khác để yêu cầu nạn nhân cung cấp một số thông tin như:
”
thông tin truy cập hệ thống, tài khoản ngân hàng
1.2 ĐỊNH NGHĨA THU RAC:
Hiện nay chưa có một định nghĩa hoàn chỉnh và chặt chẽ về thư rác Có quan
điểm chỉ coi thư rác là những thư quảng cáo không được yêu cầu (Unsolicited
Commercial Email - UCE), có quan điểm có thư rác với nghĩa rộng hơn, bao gồm cả thư quảng cáo, thư những lạm (quấy rối), và những thư có nội dung không lành mạnh (Unsolicited Bulk Email —- UBE) Dưới đây sẽ đưa ra một định nghĩa thông dụng nhất
về thư rác và giải thích các đặc điểm của nó để phân biệt thư rắc với thư thông thường
Trang 6Bảng 3.3: Phân tích các token với độ quan tâm được sắp theo thứ tự giảm dân 67
Bảng 3.4: Bảng liệt kê 15 token có xác suất và độ quan tâm nhấ - 68
Bảng 4.1: Học theo các ngữ cảnh mẫi 5c on SE neo 73 Bảng 4.2: Kết quả kiểm tht oecccccccccssssssesssssssssssesssesessssssssssussesssisessiseeeeseeceeceeeeeeeecccc 76 Hình 4.3: Các phương án bộ trí hệ thống loc thro eesccsssssecsssesscssssesssescesseeceseeceoeecees 77 Hình 4.4: Mô hình cài đặt bộ lọc như là SMTP relay - SH SE HE nen se 78
`Š
Trang 7nhận thư không yêu cầu người gửi gửi bức thư đó “Thư được gửi hàng loạt” nghĩa là
bức thư mà người nhận nhận được nam trong một loạt các thư được gửi đi cho nhiều
người khác và các bức thư này có nội dung tương tự nhau
Một bức thư được gọi là thư rác chỉ khi nó là thư không yêu cầu và được gửi
hàng loạt Nếu thư rác chỉ là thư không mong muốn thì nó có thê là những bức thư làm quen, được gửi lần đầu tiên, còn nến thư rác chỉ là thư được gửi hàng loạt thì nó có thể
là những bức thư gửi cho khách hành của các công ty, các nhà cung cấp dịch vụ
Như định nghĩa ở trên, thư rác là thư không yêu cầu và được gửi hàng loạt Nhưng yếu tố quan trọng nhất để phân biệt thư rác với thư thông thường phải là ở nội
dung bức thư Khi một người nhận được thư rác, người đó không thể xác định được thư
có được gửi hàng loạt hay không nhưng có thê nói chính xác đó là thư rác sau khi xem nội dung thư Đặc điểm này chính là cơ sở cho giải pháp phân loại thư rác bằng cách phân tích nội dung thư
Trong tin học Spam là một thuật ngữ chung ( Spam = Stupid Pointless Annoying Messages = Những bức thư ngu ngốc, phiền toái, khong gia tri ) dé chi những email không có giá trị (bao gồm: Không có ý nghĩa, quảng cáo ) được gửi đi
mà người nhận không hề mong muốn nhận nó (nhưng vẫn phải nhận)
Một định nghĩa khác về spam như sau: “spam là việc gửi các thư gần như giỗng hệt nhau tới hàng ngàn (hay hàng triệu) người nhận” Tiến hành spam là : “gửi thư spam là sự lạm dụng phương tiện liên lạc điện tử dé gửi các thư không theo yêu cầu với
sô lượng lớn”
Trang 8tôn tại một lượng lớn thư rác mang những nội dung khác Các thư rác không
mang nội dung quảng cáo hàng hoá hay dịch vụ có thể phân chia thành:
® Tư có nội dung chính trị: do các tô chức hay cá nhân hoạt động chính
trị gửi trực tiếp tới người dùng thư điện tử để phục vụ mục đích quảng
bá, tuyên truyền hay tạo quan hệ trực tiếp Hiện nay tại Việt nam, thư rác có nội dung chính trị hầu hết là của các tổ chức phản động ngoài
nước gửi về và cần đặc biệt ngăn chặn
®- Tư từ thiện: do các tô chức hay cá nhân hoạt động từ thiện gửi với nội
dung yêu cầu quyên góp hay trợ giúp Người gửi thư dạng này có thể
không nhận thức được họ đang gửi thư rác do có sự biện hộ từ mục
Bảng 1.1: Thống kê các dạng thư rác tại máy chủ
Quảng cáo liên quan đến tinh dục (không đồ hoa) 17% 34%
Trang 9
Về mặt kỹ thuật chúng ta có thể chia dữ hiệu này ra gồm 2 phần, phần đầu
(Header) và phần nội dung (Content) của email Phần đầu cung cấp thông tin để theo doi dấu vết của email như: Người gửi, người nhận, MTA được dùng để gửi email, tên của các máy chủ email trung gian mà email đi qua Đây cũng là một phân thông tin quan trọng sẽ cung cấp cho quá trình nhận biết một email có phải là spam hay không Phần nội dung bao gồm thông tỉn hiển thị trên MTA của người nhận và các thông tin
đã được mã hóa (như định dang cua rich text hay plain text .), day là nội dung chính của email và do đó nó cũng làm cơ sở để phân tích spam trong các hệ thống lọc spam hiện đại Thông tin này bao gồm có 2 phân chính đó là nội dung trong email và phần file gởi kèm theo (attachment) Nội dung của email cũng đa dạng từ dữ liệu văn bản (text) cho đến hình ảnh Do đó việc phân tích nội dung thông tin của email trong bài toản lọc spam một cách chính xác và hiệu quả cũng là một vấn đề lớn trong việc xây dựng hệ thống lọc spam
Trang 10gửi đến người nhận Do đó, nếu biết cách đọc và phân tích heađer của email sẽ dễ đàng biết được email xuất phát từ đâu Điều này là cần thieesrt trong các trường hợp email giả mạo hoặc không có địa chỉ người gửi
Trong ngành khoa học an ninh mạng, việc tìm hiểu và phân tích đúng header của email rất quan trọng vì nó cho phép xác định chính xác nguồn gốc của một email,
từ đó có thể tìm ra vị trí mà email được phát tán
Vị dụ:
Message-ID:
<6896bab50902 160320u6530cf8cb3c373c8c89 14@mail.gmail.com>
Từ message-ID ta có thể biết thêm một vài thông tin đầu tiên về nguồn gốc của email này như: email được gửi từ hệ thống mạng của tô chức hay công ty nao (trong vi
dụ trên là mail.gmail.com)
Mỗi message-ID được qui định là một day số không trùng lặp
Một số email thường hiển thị địa chi IP cha người gửi ngay trên message-TD
Trang 11Doan “krazykev [204.183.126.1§1]” cho biết user name va dia chi IP cua may tính đã gửi email này
Doan “sirocco.CC.McGill.CA (8.6.12/8.6.6) with SMTP id EAA16681” cho biệt mail server được sử dụng đê gửi email
Tiếp theo, nội dung email được gửi thông qua mail server “ppp007.free.org” và
Địa chỉ email của người gửi là '3oœ(@)#ee.org” thông tin này có thể không chính xác
Địa chỉ IP của người gửi là “204.183.126.181” và message-ID của bức email là
“v0153051facca0e1e11đ6@[204.183.126.181]”
1.4.1 Giao thire SMTP:
SMTP (Simple Mail Transfer Protocol) la mot cơ ché chuyén thu trén Internet
Nó có trách nhiệm chuyén thông điệp từ một mail server này đến một mail server khác
Mail server chạy một giao thức kiểm soát thông điệp gọi là POP (giao thức bưu điện) hay IMAP4 (giao thức truy cập Internet phiên bản 4) IMAP4 là một giao thức
mới và linh động hơn thay thế cho POP SMTP giống như người mang thư có trách
Trang 12nhiệm chuyên thư trong khi POP và IMAP4 giống như các bưu điện có trách nhiệm
nhận, lưu trữ và chuyên tiếp thư
Mail server lưu trữ các thư trong hộp thư của người sử dụng đo giao thức SMTP
gửi đến Người sử dụng kết nối vào mail server theo giao thức POP, tên thư điện tử của
họ được dùng để xác minh họ là ai và cho phép họ truy cập vào hộp thư của họ hay
không Những thông điệp sẽ được tải xuống máy tính của người dùng IMAP4 cải tiến
mô hình này băng cách cho phép người dùng giữ thư điện tử trong những hộp thư riêng
trên mail server thay vì các lá thư này tự động được tải xuống máy của họ Điều này có
ích cho người sử dụng ở những nơi có xa xôi hay sử dụng máy tính không phải của họ
SMTTP dùng cơ chế yêu cầu và đáp ứng cơ bản để chuyển thư giữa các máy POP
hay IMAP4 trên Internet hay mạng nội bộ Chỉ cần một lệnh rất đơn giản để thực hiện
trao đổi thư Lệnh này được định dạng ở dạng văn bản ASCH Cấu trúc lệnh đơn giản
giúp dé dang hon khi xây dựng những mail server ở các trạm cho khách hàng
Hình 1.1 : Mô hình tổng quát sử dụng giao thức SMTP
Trang 13được gửi đến hệ thống Nó hoạt động kết hợp với giao thức SMTP, cung cấp dịch vụ
vận chuyển các tin nhắn, yêu cầu chuyển thư từ hệ thống này đến hệ thông khác Tuy
nhiên, một giao thức mới được gọi là IMAP4 dang thay thế POP trong nhiều hệ thống
cài đặt
POP và SMTP được liên kết một cách chặt chẽ Một Mail Server phải chạy cả
hai giao thức nếu nó dung để nhận, lưu trữ hay gửi tiếp các thông điệp Công việc trao
đổi các thông điệp được điều hành bởi SMTP Các thông điệp được dẫn đường từ mail
server này đến mail server khác cho đến khi chúng đến đích Sau đó, SMTP sắp xếp các thông điệp vào POP server để nó đặt chúng vào một hộp thư Nếu POP server đích
đang ở chế độ offline, thì POP server sau cùng nhận được thông điệp sẽ giữ nó lại cho
đến khi nó có thể được gửi tiếp đến POP server đích Rồi POP server đích đặt thư này trong hộp thư của người nhận dé họ lay xem
Mô hình hộp thư tập trung dạng POP bảo đảm rằng người nhận có thể nhận thư của họ ngay khi máy tính của họ không bật, bởi vì thư này được quản lý bởi POP server cho đến khi nó được lấy ra POP server theo dõi các người dung để đảm rằng chỉ
có người mà thư chỉ định gửi cho mới truy cập thư trong hộp thư Địa chỉ email và mật
mã cá nhân người dung đủ để chứng minh nhận dạng của họ, mặc dù hiện nay đã có
nhiều hệ thống sử dụng các chứng nhận an toàn hơn
Người dung chạy trình nhận email tương thích với giao thức SMTP để nối vào một POP server và tải về thư từ các hộp thư của họ Ngay khi người dùng kết nối vào, thư sẽ được tải về ngay POP không cho phép người dùng giữ một số thư của họ tại POP server dé xem xét lại sau (có ích khi người dùng làm việc trên máy trạm của
Trang 14Các hệ thông mạng trong nhà có thể bao gồm một POP server đơn để tổ chức tat -
cả các hộp thư của người dùng Các tập đoàn lớn có thể có các POP Server riêng cho
mỗi phòng hay khu vực Internet là hệ thống mạng lớn nhất gồm rất nhiều POP server
trên toàn cầu Những trường học, công ty, nhà cung cấp dịch vụ Internet (SP) duy trì nối kết của các POP server với Internet dé cho phép tất cả mọi người trên khắp thế giới
trao đôi thư từ với nhau
POP3 Email Delivery
Sender’s ISP’s DNS Server resolves example.com
Mail server with SMTP
service and POP3 service
protocol Computer with
email client software
Email được gửi tới someone(9example.com
Hình 1.2 : Mô hình phân phối thư điện tử sử dụng giao thức POP3
Trang 15
1.4.3 Giao thức HMAP:
TMAP là một giao thức Internet để mở rộng các tính năng của POP (Post Office
Protocol) Phiên bản mới nhất của IMAP là version 4, hay IMAP4 Cả hai giao thức
déu ding SMTP (Simple Mail Transfer Protocol) SMTP la co cấu vận chuyển các thông điệp từ nơi này đến nơi khác
IMAP4 linh động và có nhiều chức năng hơn POP, vi vay nó thật sự có vị trí quan trọng và được ứng dụng rộng rãi Ngoài ra, IMAP cung cấp tất cả các tính năng của POP và có thể thay thế POP mà không phá vỡ hệ thống thư tín hiện hành Nó cho phép người dùng lưu trữ thư tín trên mail server, không cân phải download các thông điệp mới về máy tính riêng của họ, giúp họ có thể xem thư trên một máy trạm nào ở bất
ky vi tri nao
Internet mail server cần phải chạy SMTP và một trong hai giao thức POP hay
IMAP SMTP nhận các thông điệp đến từ mọi nguồn, không cần kiểm tra xác nhận
POP và IMAP lưu trữ các thông điệp trong những hộp thư của người nhận Chúng cũng cho phép người dùng truy cập các hộp thư và nhận các thông điệp Irong khi truy cập hộp thư, các thông điệp cần gửi sẽ được upload và chuyên đi
Dưới đây là một số tính năng quan trọng của IMAP, không có trong POP:
e© Người dùng cé thé download có chọn lọc từ server chỉ những thư họ
muốn đọc, hay download chỉ một phần nội dung thư:
e Người dùng có thể xem tiêu đề của các thông điệp trong hộp thư của họ
va chon dé chỉ download những thông điệp cần thiết
e© Người dùng có thể tạo một nơi lưu trữ phân cấp trên server để lưu trữ thông điệp
e IMAP hỗ trợ số địa chỉ và các liên kết đến các tài liệu và các nhóm
USENET
Trang 16'©
Authentication
Store POPS
gửi đi không đòi hỏi phải được xử lý ngay lập tức Khi người sử dụng gửi một bức thư,
hệ thống sẽ chuyên thư này vào một vùng riêng (gọi là spool) cùng với các thông tin về người gửi, người nhận, địa chỉ máy nhận Hệ thống sẽ chuyển thư đi bằng một chương trình không đồng bộ Chương trình gửi thư này sẽ xác định địa chỉ IP máy cần gửi tới, tạo một liên kết với máy đó Nếu liên kết thành công, chương trình gửi thư sẽ
chuyên thư tới vùng spool cia máy nhận Nếu không thể kết nỗi với máy nhận thì
chương trình gửi thư sẽ ghi lại những thư chưa được chuyên và sau đó sẽ thử gửi lại một lần khi nó hoạt động
1.6 TRUY TÌM NGUỎN GOC EMAIL:
Có nhiều cách để truy tìm nguồng gốc email như: sử dụng trang web 1P2Location, dùng chương trình Find Country by IP, chương trình Mail tracker pro sau đây là ví dụ truy tìm nguồn gốc email sử dụng trang web IP2Location Giả sử ta có
header của một email như sau:
Trang 17From kt nguyen Sun Mar 7 19.14:C7 2010
¥-Apparently-Te: nkkhang@yahoo.com via 216,252.110.197; 5un, 07 Mar 2018 11:14:13 -0636
mtaiG48.mail.skl.yahos.com from=yahoo.com; domainkeys<pass (ok from=yahoo.com; deim=pass (0k;
Received: from 127.0.0.2 (HELO nit.bullet mail mud.yahioo.com} (206.191.125.210! Dy mta104£.mail.sk1.yahoo.com with SMTP; Su Received: from {66.142.164.244] by n1¡.bưlet.maimud.vahoo.com wÈh NNFMP: G7 Mar 2010 19:14:07 -0005
Received: from {216.252.122.218} by #7 bullet mud.yahoc.com with NNFMP; 07 Har 2610 19:14:07 -0000
Recelved: from [69.147.84.102] by 13,bullet,sp1.yahoo.som wfth NHFM?; 07 Mar 2018 19;14:02 -0096 Rerelued, fomi12740.0.Dw omp206.mail.sp1.yahao.com with NNFMP; 07 Mar 2010 19:14:07 -0060
Received: from [8.142.194.2447 be ni L bullet mai.mud yahoo.com with NNFMP; 07 Mar 2010 19:14:¢7 -0030
Received: fom/216.232.122216]w t2-bulletmud.vanoc.com with NNEMP; 07 Mar 2010 19:14:07 -Q005
Received: from 169.147.84.1€2! by t2,bullet.sp Lyahoo.com with NNFMP; 07 Mar 2010 19: 14:07 C000
Mở trình duyệt bat ky, gõ địa chi: htip://www.ip2location.com/demo.aspX
Trong khung Enter IP Address, nhập vào một trong các địa chỉ IP cia người gửi như 68.142.194.244 sau đó click nút FIND LOCATION để tìm:
Trang 181, Enter the IP addresses separated by a single space in the search box
z Press the "Find Location” button
Note: Shortcut URL to this Demo for IP Address 1.2.3.4 js https! ‘www ip2location.com/1,2.3,
These results were orodured by the IFZLecation™” 58798 March 20it Edition Database Siar up now for your FREE Dems Account to get 200 queries per day,
Trang 19Kết quả tìm kiêm sẽ như sau:
DSL INKTOMI CORPORATION YAHOO.COM iDD Code Area Code Weather Station
Để có thê giri thu rac thi spammer phải có danh sách các địa chỉ email của người nhận Vì thế, spammer thực hiện quá trình phân tích, thu thập và lưu lại tất cả những
địa chỉ email liên quan đến lĩnh vực mà spammer đang tìm kiếm; Có nhiều cách để
spammer co thể thực hiện điều này chang hạn như:
Thu thập email bằng phương pháp thủ công
Sử dụng phần mềm Super Email Spider
Sử dụng phần mềm Atomic Email Hunter
Trang 20Sử dụng phần mềm Email Spider Gold
Phan mềm Super Email Spider là một chương trình rất mạnh, khả năng thu thập email với tốc độ cực nhanh, tuy nhiên yêu cầu cấu hình máy tính phải mạnh và băng
thông mạng tương đối lớn Ngược lại, Atomic Email Hunter thích hợp cho những cầu
hình máy tính vừa phải và băng thông trung bình
Email Spider Gold lại khác, nó hoạt động rất mạnh nhưng lại chiếm ít tài
nguyên máy tính và băng thông mạng nên rất thích hợp cho mọi cấu hình may tính và |
Phần mềm Email Sender Deluxe
Phan mém 123 Bulk Email Direct Sender
Cac phuong phap ngay cang cai tién va tinh vi hơn, mỗi spammer đều có những
thủ thuật riêng nhằm lọt qua được các hệ thống lọc spam vừa mới ra đời Vì vậy một hệ
thông lọc spam tốt phải có khả năng thích ứng với những thay đổi đó hoặc có thể dễ
dàng thay doi dé tăng cường thêm sức mạnh từ các giải thuật mới, các điều kiện để
kiểm tra spam chặt hơn Một trong số những kỹ thuật cơ bản nhất mà người gửi spam
thường dùng để phát tán các thông điệp của họ là gửi chuyển tiếp thư (mail relay)
Trang 21không xác thực Chuyển tiếp thư mở (open mail relay) xảy ra khi một máy chủ email (mail server) xử ly một thông điệp email trong đó địa chỉ người gửi và địa chỉ người
nhận không nằm cùng một mạng cục bộ Máy chủ email hoàn toàn không liên quan tới
sự trao đổi email giữa những người dùng Việc người gửi spam theo cách gửi chuyên tiếp thư không xác thực không chỉ tạo khó khăn và tốn thời gian để lần theo nguồn gốc của spam mà còn gây tai tiếng cho các tô chức có máy chủ thực hiện chuyển tiếp email, tiêu tốn tài nguyên máy tính Việc cấu hình lại máy chủ email có thể ngăn ngừa
chuyển tiếp thư mở bằng cách áp dụng các bộ lọc chuyển tiếp để cho phép các thư
chuyển tiếp (relay mail) đến phạm vi địa chỉ nào đó Nhiều hệ thống thứ ba có thê cung
cấp một danh sách tất cả các máy chủ email chuyển tiếp spam đã được nhận diện, để
cho các nhà cung cấp dịch vụ internet dễ dàng chuyên tiếp thư tới các nhà cung cấp
email đã đăng ký để kiểm tra bất kỳ khi nào một email đến được phát sinh từ danh sách
này nhằm phân loại nó như một spam hoặc để thực hiện lọc bổ sung Tuy nhiên, phương pháp này có thể dẫn đến một máy chủ vô tội bị ghi vào số đen, và các email được gửi đi từ máy chủ này sẽ bị nhận diện như là spam
1.9 TONG QUAN VE HE THONG TRUY TIM THONG TIN vA CÁC MÔ HÌNH SỬ DỤNG
1.9.1 Hệ Thống Truy Tìm Thông Tin (nformation Retrieval System — IR)
Hệ truy tìm thông tin là hệ thống tìm những thông tin liên.quan (relevant) đến nhu cầu của người dùng, điển hình như các hệ IR trên Internet: Google, Yahoo, Vinaseek là các hệ truy tìm thông tin Người sử dụng có thể đưa các câu truy vẫn vào
hệ thống và nhận các thông tin được trả về bởi hệ thống, thông tin có thê là văn bản, anh sé, video, tir cac kho dtr liéu (data collections)
Trang 22So dé tong quan cua mot hé IR:
Hình 1.5 Kiến trúc tổng quát của hệ IR
Hệ IR gôm các chức năng chính như: xử lý văn bản, sô hoá văn bản, xử lý câu truy vấn, truy tìm văn bản Dưới đây là kiến trúc chỉ tiết của hé IR
Trang 23Có 3 mô hình chính được sử dụng cho một hệ IR: Mô hình Boolean, mô hình
xác suất và mô hình không gian vector (VSM) Mô hình Boolean là mô hình cô điển đã
được sử dụng trong các hệ thống cũ và tỏ ra kém hiệu quả
1.9.2 Mục tiêu của hệ truy tìm thong tin ([R System)
Mục tiêu chính của hệ IR là truy tìm những văn bản trong tập văn bản của hệ thống liên quan đến thông tin mà người sử dụng hệ thống cần Những thông tin được người dùng đưa vào hệ thống bởi các câu truy van (query) Nhimg tai liệu — văn bản
“liên quan” (reievari) với câu truy vấn sẽ được hệ thống trả về Những văn bản được trả về tương ứng với câu truy vẫn được gọi là liên quan (relevar) với cầu truy vẫn đó, ngược lại không liên quan (irrelevant)
Hệ IR xếp hạng các văn bản trong tập văn bản theo thứ tự giảm đần độ đo liên
quan với câu fruy vấn, sau đó chọn các văn bản có hạng cao như kết quả về, hoặc có
thể trả về những văn bản có độ liên quan lớn hơn một ngưỡng cho trước
1.9.3 Các mô hình cho hệ truy tìm thông tin
Tổng quát, mô hình cho hệ IR là một bộ bốn [D, Q, F, R(q; đ;)] trong đó:
1 D Ja tap van ban (document collection)
2 Q là tập các câu truy vẫn của người dùng
3 F là mô hình biểu điễn tập văn bản, câu truy vấn và các quan hệ của chúng
4 R(q¡, đ,) là hàm xếp hạng theo đo độ tương tự giữa câu truy van g;e Q và văn
bản đ;e D Hàm xếp hạng xác định một thứ tự về mức độ liên quan của các văn bản với câu truy vấn đ;
Cơ bản, có 3 mô hình toán học cho hệ IR, các mô hình này đêu dựa trên một cách chung là tất cả các văn bản trong tập văn bản đều được mô tả bởi một tập các từ
khoa hay con goi 1a cdc tir chi muc (index terms) Mot giải thích tốt nhất cho các từ chỉ mục là một danh sach cac tir (words) biểu diễn nội dung chính của văn bản Các từ chỉ muc théng thong 1a tir chi ndi dung (content words) mac dù có thể có các từ loại khác
Trang 24
Cac từ chỉ mục được gắn một trọng số, trọng sô của một từ chỉ mục nói lên sự liên
quan của nó đến nội dung của một văn bản Định nghĩa dưới đây chỉ cách đánh trọng s6 cho tir chi muc (index terms)
Cho ! là số từ chỉ mục của tap van ban va K={ky, ,k,} là lập các từ chỉ mục
Một trọng số w¡, là sự kết hợp mỗi từ chỉ mục k, của văn bản 4, Nếu từ chỉ mục kj
không xuất hiện trong van ban d, thi wy = 0, nguoi lại wy > 0 M6t van ban d; dugc
biéu diễn nhự một vector từ chỉ mục được ký hiệu đ; = (wy, wy, ., Wy)
1.9.3.1 Mô Hình Boolean
Boolean là mô hình cô điển đã được sử dụng trước đây và cho đến nay vẫn còn được sử dụng nhiều trong các hệ thống IR bởi vì tính đơn giản của nó, tuy nhiên hiệu quả không cao Mô hình Boolean dựa trên lý thuyết tập hop (set theory) va dai sé Boolean (Boolean algebra) Mé hinh Boolean phổ biến bởi vi cả lý thuyết tập hợp và đại số Boolean có mối quan hệ đơn giản và đễ hiểu, vì vậy các hệ IR được xây dựng trên mô hình này, người dùng dễ dàng sử dụng
Với mô hình Boolean văn bản được biểu diễn bởi một vector nhị phân, tức là
các vector có các phần tử thuộc {0, 1} Từ chỉ mục thứ #; xuất hiện trong văn bản Z thì trọng số Wj = Ì, ngược lại wi = 0
Trang 25Tất cả các truy vân được biêu diễn bởi các biêu thức Boolean, sử dụng ba phép
toán cơ bản: nơí, and, or, được biểu điễn trong hình 1.3
Văn bản truy vấn sử dụng mô hình nầy được xem như: hoặc liên quan đến nội
dung truy vấn hoặc không, ở đây không có cách để để tìm các văn bản chỉ liên quan
cục bộ hay còn gọi là liên quan một phan (partially relevant) cha cau truy van Vi du
cho văn bản đ, đ có từ chỉ mục kz, tuy nhién d duc xem như không liên quan tới câu
truy van g = kg AND (kg or kc) BGi vì d không có từ chỉ mục k¿ nên không liên quan
(irrelevant) đến câu truy vẫn
Ưu điểm của mô hình Boolean:
‹ - Đơn giản, dễ học và sử dụng
Nhược điểm:
¢ _ Vì dựa trên phép toán logic nhị phân nên một văn bản được tìm kiếm chỉ xác
định hai trạng thái: liên quan hoặc không với câu truy vấn
- - Việc chuyến một câu truy vấn của người dùng sang dạng biểu thức Boolean không đơn giản
1.9.3.2 Mô Hình Không Gian Vector(Vector Space Model)
Bởi vì việc tìm kiếm liên quan cục bộ không thể thực hiện được với mô hình Boolean, mô hình không gian vector khắc phục hạn chế trên Cách khắc phục là sử
đụng trọng số cho từ chỉ mục khác trọng số nhị phân (non-binary).“Trọng số từ chỉ mục
không giới hạn bởi hai trị 0 hoặc 1, các trọng số nầy được sử dụng để tính toán độ đo
tương tự của mỗi văn bản với câu truy vấn Với mô hình không gian vector, cac van
bản, câu truy vấn và từ chỉ mục được biểu diễn thành các vector trong không gian
vector Sử dụng các phép toán trên không gian vector để tính toán độ đo tương tự giữa câu truy vẫn và các văn bản hoặc các từ chỉ mục, kết quả sau khi tính toán có thê được xếp hạng theo độ đo tương tự với vector truy vẫn Ngoài ra, mô hình không gian vector còn hướng dẫn người dùng biết được những văn bản độ tương tự cao hơn có nội dung gần với nội dung họ cân hơn so với các văn bản khác
Trang 26Mô hình không gian vector dựa trên giả thiết là nội dung của văn bản có thể được hiểu như sự kết hợp của các từ chỉ mục Một văn bản Z được biểu diễn như một
vector của các từ chỉ mục d = (f;, ty, ,t,) voi ti la tir chi mục thứ ¿ (1< ¡ < n) ( các gia
trị có thê là số lần xuất hiện của term ứ, trong văn bản 2) Mỗi từ chỉ mục trong văn bản biểu diễn một chiều (dimension) trong khéng gian Tương tự, câu truy vấn cũng được biểu diễn như một vecfor a = V fof}
Hình 1.8 Biéu dién vector van ban
Sau khi đã biểu diễn tập văn bản và câu truy vẫn thành các vector trong không gian vector, ta có thể tính độ đo tương tự giữa các vector văn bản và vector truy vấn sử
dung d6 do cosines.
Trang 27
Hình 1.9 Góc giữa hai vector văn bản
Ưu điểm của mô hình không gian vector:
‹ - Đơn giản, dễ hiệu
¢ Cai dat don gian
- - Khắc phục các hạn chê trên mô hình Boolean
4 À 2A x ^ x 2 7 ,LA Aa 1 nm 4k LÀ A :
- §é6 chiéu biéu dién cho tap van ban cé the rat lon nen ton nhiêu không gian lưu trữ
1.9.3.3 Mô Hình Xác Suất (Probability Model)
Cho câu truy vấn của người dùng g và văn bản đ trong tập văn bản Mô hình xác suất tính xác suất mà văn bản Z liên quan đến cầu truy vấn của người dùng Mô hình
giả thiết xác suất liên quan của một văn bản với câu truy vấn phụ thuộc cách biểu điễn chúng Tập văn bản kết quả được xem là liên quan và có tổng xác suất liên quan với câu truy vấn lớn nhất Kỹ thuật được sử dụng rộng rãi nhất là các mạng suy diễn Bayes
và các biến đổi cải tiến của nó, mô hình được sử dụng trong luận văn này
Trang 28Ưu điểm của mô hình xác suất:
e Văn bản được sắp xếp dựa vào xác suất liên quan đến câu truy vẫn
Nhược điêm:
e Mô hình không quan tâm đến số lần xuất hiện của từ chỉ mục trong văn bản
e _ Việc tính toán xác suât khá phức tạp
1.10 NHU CAU PHAN LOAI THONG TIN TRONG EMAIL
Việc phân loại email để tiện lợi trong việc khai thác và cũng là một nhu cầu rất lớn trong việc quản lý thông tin, việc phân loại thông tin trong email ngoài việc giúp quản lý tốt thông tin nhận được còn phục vụ cho việc xử lý thông tin qua email như hệ
thông trả lời thư tự động, hệ thống phân tích đữ liệu và hỗ trợ khách hang
Đối với một người sử dụng email bình thường thì phân loại thông tin giúp họ dễ
quản lý được các nguồn thông tin đến và từ đó giúp họ dễ dàng tìm kiếm khi cần thiết
Chẳng hạn như chúng ta có nhiều loại email: Công việc, bạn bè, giải trí
Đối với các cơ quan hay công ty thì việc phân loại thông tin email trong hợp thư
hỗ trợ (helpdesk support) sé giup ích được rất nhiều trong việc xử lý email và giải
quyết yêu cầu của khách hàng nhanh chóng
Trong xử lý tự động, đặc biệt là trong các hệ tri thức, hoặc hệ thống hỗ trợ khách hàng chuyên nghiệp, việc nhận và phân loại thông tin để đưa vào cơ sở đữ liệu
cho việc sử dung sau nay 1a rat cần thiết Email khi đến máy chủ emhil cục bộ nó được
tiến hành lọc spam trước tiên, sau đó sẽ được tiến hành phân loại và đưa ra kết quả các email đã được phân loại, một chương trình khác sẽ tiếp nhận thông tin được phân loại trên dé tiếp tục xử lý theo yêu cầu riêng của mình, chăng hạn như xây dựng một hệ trả lời tự động hoặc kích hoạt những yêu cầu khác
1.11 MUC TIEU NGHIÊN CỨU:
Qua những vẫn đề nêu trên, việc lọc thư rác là một trong những nhu cầu cần thiết hiện
nay giúp chúng ta tiết kiệm được thời gian, chỉ phí cũng như tài nguyên mạng Đề tài
Trang 29“nghiên cứu các phương pháp lọc thư rác và xây dựng thử nghiệm hệ thống lọc thư trên linux” được xây dựng nhằm đáp ứng nhu cầu đó
Mục tiêu cụ thể của đề tài bao gồm:
- 1 Tìm hiểu các cơ chế và phương pháp mà các spammer sử dụng đề gửi thư rác,
từ đó có cơ sở để xây dựng các phương pháp phòng chống và lọc spam
2 Khám phá các bộ lọc thống kê trên cơ sở các giải thuật máy học, các bước để
hiện thực một bộ phân lớp trên cơ sở kỹ thuật Bayes và các nghiên cứu cải tiến
hiệu suất của nó
3 Xây dựng hệ thống lọc spam theo phương pháp lọc théng ké két hop Bayesian trên môi trường linux dựa vào mã nguồn mở DSPAM phiên bản mới nhất
1.12 ĐỀ CƯƠNG LUẬN VĂN
Luận văn này gồm bốn chương:
- Chương 1 Trình bày tổng quan các vấn đề về thư spam, mục tiêu nghiên cứu và
đề cương luận văn
- Chương 2 Trình bảy ngắn gọn các phương pháp lọc thư rác đã và đang sử dụng
hiện nay, mục tiêu của chương này là trình bày cơ chế hoạt động của bộ lọc spam
truyền thống và đặt vấn dé bộ lọc spam trên cơ sở máy học và hiện suất của các
“
bộ lọc
- Chương 3 Trình bày cơ sở lý thuyết cho bộ lọc thống kê
- Chương 4 Trình bày các vẫn đề liên quan đến việc triển khai một bộ lọc thống
kê dựa vào kỹ thuật Bayes trên môi trường Linux
Trang 30CHƯƠNG 2:
CÁC PHƯƠNG PHÁP LỌC THƯ RÁC CƠ BẢN
Chương này sẽ trình bày một số phương pháp thông dụng để loại bỏ thư rác và
mô tả các kỹ thuật lọc thư rác được sử dụng hiện nay
2.1 CÁC PHƯƠNG PHÁP PHÁT HIỆN VÀ LOẠI BỎ THƯ RÁC
cả các địa chỉ IP đã được tìm thấy trong phần header của email đó, sau đó so sánh với
cơ sở đữ liệu DNS Blacklist đã biết Nếu địa chỉ IP tìm thấy có trong cơ sở dữ liệu
DNS Blacklist, nó sẽ bị xem là thư rác, ngược lại đó sẽ được xem là một email hợp lệ
Phương pháp này có ưu điểm là các email có thể được kiểm tra trước khi tải xuống vì vậy mà tiết kiệm được băng thông mang
Nhược điểm của phương pháp này là không phát hiện ra được những email giả mạo địa chỉ người gửi
2.1.2 Sử dụng SURBL List (Spam URL Realtime Blocklist)
Phương pháp sử dụng SURBL phát hiện thư rác dựa vào nội dung của email
Chương trình chống thư rác sẽ phân tích nội dung của email, xem bên trong nó có chứa các liên kết đã được liệt kê trong SURBL hay không Nếu nội dung thông điệp chứa
liên kết trùng với liên kết được lưu trong SURBL thì email này được xem là thư rác
Ngược lại, chúng được xem là hợp lệ
Trang 31
Phương pháp này có ưu điểm là phát hiện được các email giả mao địa chỉ người
gửi để đánh lừa các bộ lọc
Nhược điểm của nó là email phải được tải xuống trước khi tiến hành kiểm tra,
do đó sẽ hao tốn băng thông mạng và tài nguyên của máy tính để phân tích các nội
dung email
2.1.3 Kiếm tra người nhận:
Tấn công bằng thư rác theo kiêu “từ điển” là phương pháp sử dụng các địa chỉ email và tên miền đã biết để tạo ra các địa chỉ email hợp lệ khác Bằng kỹ thuật này
spammer có thê gửi thư rác tới các địa chỉ emails được sinh ra một cách ngầu nhiên
Một số địa chỉ email trong số đó có thực, tuy nhiên một lượng lớn trong đó là
địa chỉ mail không tồn tại và chúng gây ra hiện tượng quá tải ở các Mail server
Để ngăn chặn hình thức tấn công này, ta có thê chặn lại các email gửi tới các địa
chi khong tén tai trén Active Directory hoac trên Mail server Tính năng này sẽ sử
dung Active Directory ho’c LDAP server dé xác minh các địa chỉ người nhận có tồn
tại hay không Nếu số địa chỉ người không tồn tại vượt quá một ngưỡng nào đó (do
người quản trị thiết lập) thì email gửi tới đó sẽ bị xem là thư rác và bị chặn lại
2.1.4 Kiểm tra địa chỉ người gửi:
Bằng cách kiểm tra địa chỉ người gửi và người nhận, phân lớn thư rác sẽ được phát hiện và chặn lại Thực hiện kiểm tra địa chỉ người gửi trước khi email được tải xuống sẽ tiết kiệm được băng thông mạng cho toàn hệ thống
Kỹ thuật Sender Policy Framework (SPF) được sử dụng để kiểm tra địa chỉ
người gửi email Kỹ thuật này cho phép chủ sở hữu của một tên miền Internet sử dụng các bản ghi DNS đặc biệt (gọi là bản ghi SPF) chỉ rõ các máy được dùng để gửi email
từ miền của họ Khi một email được gửi tới, bộ lọc SPF sẽ phân tích các thông tin
trong trường From hoặc Sender để kiểm tra địa chỉ người gửi Sau đó sẽ đối chiếu địa chỉ đó với các thông tin đã được công bố trong bản ghi SPF của miền đó xem máy gửi
Trang 32e© P(h) là xác suất trước (prior probabiltity) của giả thuyết h Giá trị này thường được tìm bằng cách tìm kiếm trong đữ liệu quá khứ (trong tập huấn luyện)
e - P(D) là xác suất trước của tập đữ liệu huấn luyện D Giá trị này thường là một hằng số P(D) = P (Dịh)P(h) + P(D |¬h)P(¬ h), nó có thể được tính để dàng khi cho P(h|D) và P(¬ h|D) bằng 1
e P(Dịh) xác suất điều của D dựa trên h, và được gọi là khả năng có thể xảy ra(likelihood) Giá tri nay được gắn bằng 1 khi D và h là nhất quán va duoc gan
bang 0 khi D và h không nhất quán
Định lý Bayes mang tính tông quát và có thể được áp dụng vào bất kỳ trạng thái
nào để tính toán một xác suất điều kiện khi đã biết các xác suất trước Tính tống quát
của nó được chứng minh qua nguồn gốc của nó, nó rất đơn giản Nguồn gốc của định
lý Bayes không có gì đặc biệt Nguồn gốc này là ngăn gọn và chỉ sử dụng định nghĩa của xác suất điều kiện và thay thế kết hợp
Bộ phận lớp sử dụng các định lý Bayes có những tính chất quan trọng sau:
a Tang cường: với mỗi mẫu huấn luyện, mẫu huấn luyện trước và có thế đúng có
thể được cập nhật động do vậy bộ phận lớp có tính mềm đẻo và ít lỗi
b Kết hợp kiến thức có trước và dữ liệu được theo dõi: xác suất của một giả thuyết được nhân với xác suất của giả thuyết có được từ tập huấn luyện
c Các giả thuyết theo xác suất: kết xuất không chỉ là sự phân lớp mà còn là xác suất phân bố trên tất cả các lớp
d Sw phan lớp dữ liệu đã biến đỗi (meta dafa): các kết xuất của các bộ phân lớp khác nhau có thê kết hợp lại, thí đụ bằng cách nhân các xác suất mà tất cả các bộ phận phân lớp dự báo cho một lớp được chỉ ra
Mặc dù đơn giản nhưng định lý Bayes vẫn được coi là một thành quá quan trọng, vì những lý do sau đây:
Trang 33e_ Các phương pháp Bayes coi định lý như là một luật để cập nhật “độ tin” để đáp
ứng lại một đữ liệu mới
e_ Xác suất sau, P(h|D), là một giá trị mà con người phải tìm để định giá (chúng được sử dụng nhiêu để tính P(D|h))
® Nó tạo một cơ sở cho một số thuật toán thực tế
e_ Chiến lược học Bayes tổng quát là:
v Bắt đầu bằng xác suất trước P(h)
* Sử dụng đữ liệu D để huấn luyện p(h|D)
vx Chấp nhận giả thuyết có khả năng xảy ra nhiều nhất được cho bởi P(h|D)
vx Định lý Bayes được sử dụng để chọn giả thuyết có xác suất đúng cao
nhất, từ tập dữ liệu huấn luyện Giả thuyết này được gọi là giả thuyết cực đại xác suất sau (maximum a posterior)
2.2.7 Kết hợp các phương pháp phân lớp email theo thống kê:
Cho f va g là hai bộ lọc spam có lỗi ƒaise positive rất thấp Chúng ta có thể kết
hợp chúng với nhau để có được một bộ lọc với độ chính xác cao hơn, ta sử dụng luật
Phan Iép thu dién tir x dudi dang một spam nếu hoặc ƒhoặc ø phân lớp nó là spam Ngoai ra (néu f(x) = g(x) = L) phan lép nó là thư hợp lệ
Chúng ta sẽ tiếp tục xem xét kết quả của bộ phân lớp đưới dạng hop (union) cua
f va g, duge biéu dién dudi dang f Ug Co thể thấy rằng chúng ta đang thực hiện kết
hợp bộ lọc theo cách nguy hiểm vì bộ phân lớp kết quả sẽ gây ra một lỗi false positive cho thư x nếu một trong hai bộ phân lớp gây ra lỗi này Nhưng do chúng ta giả sử rằng các bộ phân lớp ƒvà ø có xác suất false positive rat nhỏ, nên xác suất mà bộ phân lớp ƒ
hay ø tạo ra một lỗi như vậy cũng rất nhỏ, như vậy theo cảm giác union là an toàn.