tiểu luận mail spam cơ chế và các biện pháp phòng chống

Cơ chế này cho phép các MTA biên ngõ vào MTA B có thể nhận hay khóa luồng mail dựa vào địa chỉ phía gửi trong trường hợp nó nhận trúng spam hoặc địa chỉ này đã có trong blacklist mà nó s

Trang 1

  

BÁO CÁO ĐỒ ÁN MÔN HỌC

AN NINH MẠNG

Đề tài :

Giáo viên hướng dẫn : Lê Phúc

Sinh viên thực hiện : Nguyễn Phước Bảo Thành _ 405170065

Hồ Lê Hoàn _ 405170025

Thành phố Hồ Chí Minh

 04/2009 

Trang 2

MỤC LỤC

I.Giới thiệu về SPAM 3

1.SPAM là gì? 3

2.Các loại SPAM 3

3.Tác hại của SPAM 4

II.Cơ chế hoạt động của spam 5

1.Thu thập địa chỉ email 5

2.Gửi SPAM 6

III.Các biện pháp phòng chống spam 7

1.Internet mail và spam: 7

2.Các phương pháp phòng chống spam 10

3.Cost – based 11

4.Filter 14

5.Phòng chống spam dựa trên phương pháp nhận dạng 17

a.Nhận dạng dựa trên đường đi của mail 17

b.Xác thực địa chỉ IP dựa vào đường đi 19

c.Xác thực domain dựa vào đường đi 19

d.Chứng thực mã hóa mail 22

6.Ngăn chặn spam sử dụng blacklist 25

a.Sender blacklist 25

b.Domain blacklist 26

7.Lọc mail dựa vào White-list, các dịch vụ danh tiếng và dịch vụ đã được ủy quyền 27

a.Lọc mail dựa vào Whitelist 27

b.Dịch vụ tin cậy (Reputation Service - RS) 28

c.Dịch vụ ủy quyền (Accreditation Service - AS) 28

8.Một số công nghệ mới: 30

IV.Kết luận 31

Trang 3

I Giới thiệu về SPAM

1 SPAM là gì?

Spam là những email không được sự cho phép của người nhận (unsolicited email) được gừi đi với số lượng lớn tới hồm thư của người dùng internet

Spam đôi khi cũng là những email thương mại không được sự cho phép của người nhận(UCE-Unsolicited Commercial E-Mail)

Vậy Spam làm tràn môi trường Internet bằng cách gửi đi nhiều gói tin với cùng một nội dung, những gói tin này được truyền đến những người mà họ không thể không nhận chúng

Những nội dung quảng cáo hay chiêu dụ người dùng … Gọi là spam

2 Các loại SPAM

Có hai loại spam chính, chúng có những ảnh hưởng khác nhau đến người dùng Internet:

Usernet spam: đây là dạng spam ta thường gặp trên các forum, một gói tin sẽ

được gửi đến trên 20 newsgroup Qua quá trình sử dụng, người dùng đã thấy rằng bất kỳ một tin nào được gửi đến nhiều newgroup một lúc thường sẽ mang những thông tin không cần thiết Usernet spam cố gắng trở thành một “kẻ giấu mặt” – đọc thông tin trong các newsgroup nhưng ít khi hoặc không bao giờ post bài hay cho địa chỉ của mình Usernet spam chiếm quyền sử dụng của các newsgroup bằng cách làm tràn ngập các quảng cáo hoặc những bài viết không phù hợp Ngoài ra, Usernet spam có khi còn làm ảnh hưởng đến quyền điều khiển của quản trị hệ thống, chiếm quyền quản lý một topic nào đó

Email spam: Email spam nhắm đến người dùng riêng biệt trực tiếp qua các thư

điện tử Các spammer sẽ tiến hành thu thập địa chỉ mail bằng cách duyệt qua hòm thư Usenet, ăn cắp danh sách mail hay tìm kiếm trên web Đối với những user sử dụng dịch

vụ điện thoại thì đồng hồ đo vẫn chạy trong khi họ nhận hay đọc mail, chính vì vậy mà

Trang 4

spam làm họ tốn thêm một khoản tiền Trên hết,các ISP và các dịch vụ trực tuyến ( online services) phải tốn tiền để chuyển các email – spam đi, những chi phí này sẽ được chuyển trực tiếp đến các thuê bao

Bất cứ ai cũng có thể trở thành người gửi thư rác (spammer) Chẳng hạn, bạn có một món hàng độc đáo cần bán ngay Nhưng làm sao để mọi người biết Trước hết bạn thông báo cho bạn bè bằng cách gửi email cho 100 người nằm trong sổ địa chỉ của bạn Như thế bạn không mất một đồng nào mà vẫn có thể gửi đi 100 email quảng cáo sản phẩm của mình Nếu có người biết để mua hàng thì bạn sẽ lời to Và bạn tự nhủ : "Tại sao mình không gửi email cho nhiều người khác nữa? Mình sẽ có thể thu được nhiều lợi nhuận hơn?” Rồi bạn sẽ tìm tòi ứng dụng các giải pháp để gửi đi được nhiều email cho

cả những người bạn không quen biết hơn Vậy là bạn đã trở thành spammer

Đó mới chính là vấn đề thực sự của spam Nó quá dễ để ai cũng có thể gửi đi trong khi chi phí bỏ ra chẳng đáng là bao, có khi là chả mất đồng nào Và cho dù tỉ lệ bán hàng quảng cáo không cao, nhưng spam vẫn có một sức hút đặc biệt với giới tiếp thị.

3 Tác hại của SPAM

Hầu hết các spam đều nhằm

mục đích quảng cáo, thường cho

những sản phẩm không đáng tin cậy

hoặc những dịch vụ có vẻ như hợp

pháp Tuy nhiên, không phải mọi vụ

gửi SPAM đều là nhằm mục đích

quảng cáo thương mại Một số vụ gửi

SPAM lại nhằm mục đích bất chính

hoặc cũng có những kẻ gửi SPAM chỉ

để bày tỏ quan điểm chính trị hoặc

tôn giáo Hình thức gửi SPAM nguy

hiểm nhất là hình thức gửi đi những thông điệp để lừa người dùng tiết lộ thông tin tài khoản ngân hàng trực tiếp, số thẻ tín dụng … - hay đây chính là một dang phổ biến của lừa đảo trực tuyến

Do không có một cách thức hiệu quả nào để lọc spam nhận vào trước khi nó được nhận bởi server tại ISP cục bộ, ISP phải trả chi phí về băng thông cho các gói tin mà họ nhận

Theo thống kê của phần lớn các ISP thì họ thường bị spam chiếm khoảng 25-30% băng thông Spam làm tràn bộ đệm của người dùng với các mail quảng cáo, có khi làm họ không nhận được các mail khác Qua đó ta thấy spam đã sử dụng một lượng lớn tài nguyên mà không cần sự cho phép hay có bất kỳ một hành động bồi thường thiệt hại nào, làm cho cộng đồng Internet phải tốn một chi phí đáng kể

Những chi phí liên quan khi spam sẽ được trả bởi người nhận chứ không phải là

từ các spammer Tài khoản của spammer sẽ bị hủy bỏ ngay khi ISP phát hiện ra nó dùng

để gửi spam, vì thế mà hầu hết các spam đều được gửi từ những tài khoản thử miễn phí (Trial account) để không mất bất kỳ một chi phí nào

SPAM là một tai hoạ đối với thư điện tử và nhóm thảo luận (newsgroup) trên Internet SPAM có thể gây trở ngại đến sự hoạt động của các dịch vụ công cộng Đấy là chúng ta còn chưa nói đến tác động của nó đối với hệ thống email Những kẻ chuyên gửi SPAM lấy đi những nguồn tài nguyên của người dùng và nhà cung cấp dịch vụ mà không phải đền bù bất cứ

cái gì.”

(Vint Cerf – Cha đẻ của Internet)

Trang 5

Do hầu hết các ISP đều có một chính sách giới hạn tự động nhằm tránh sự lạm dụng hệ thống của họ, các spammer sẽ chuyển gói tin sang các hệ thống ở các nước khác, chiếm thời gian xử lý và băng thông mà không cần hiểu rõ về các hệ thống đó

Theo báo cáo vào khoảng tháng 6 năm 2008 thì phần trăm Spam trong tổng số email trên toàn thế giới có xu hướng tăng lên khá rõ Và tác hại do nó thì không thể đo hay tính được, nhưng theo thống kê của Internet Week thì "50 tỉ USD mỗi năm" là số tiền

mà các công ty, tổ chức thương mại trên thế giới phải bỏ ra để đối phó với nạn thư rác đang hàng ngày tấn công vào hòm thư của nhân viên

Mỹ là quốc gia chịu nhiều thiệt hại nhất, chiếm 1/3 số tiền nói trên Đó là tác hại chung về kinh tế, riêng cá nhân thì mỗi người cũng có ý kiến riêng của mình về tác hại của Spam Vậy, biện pháp và cách hạn chế như thế nào để mỗi khi check mail, bạn không còn phải đối phó với đống thư Spam kia nữa?

Màu xanh là spam tăng theo tháng

II Cơ chế hoạt động của spam

Để gởi một spam thì các spammer thông qua 2 bước cơ bản là thu thập địa chỉ email và gửi spam

1 Thu thập địa chỉ email

Spammer có rất rất nhiều cách để thu thập địa chỉ email

Biện pháp đơn giản như là họ tạo ra các trang web mà đòi hỏi bạn phải “log on”,

“sign up” để được xem nội dung đầy đủ hay là các trang web với những chủ đề hấp dẫn

để chiêu dụ những người nhẹ dạ như “Bạn muốn là người may mắn sở hữu chiếc laptop trị giá 30 triệu hảy để lại địa chỉ email của bạn” ,vậy là spammer đã có email của bạn

Thủ công hơn nữa là họ thu thập địa chỉ email của bạn khi nó “vô tình” hiện diện trên một trang web nào đó, đơn giản họ dùng chương trình tìm kiếm (google) với key là

“@”,đây là ký tự của địa chỉ email ,ví dụ như “Mình cũng cần tài liệu này,nick của mình

là email@

Ngoài ra họ còn có thể thu thập địa chỉ email dựa trên các phương tiện phi điện

tử, như thông tin in trên danh thiếp, tờ khai… Kiểu thu thập này thì bạn cần có biện pháp phòng chống khác

Phương pháp thu thập phổ biến là Dictionary attack(tấn công từ điển), Dictionary attack là phương thức được lập trình sẵn cho một chiếc máy tính có thể tạo ra rất nhiều những biến thể từ 1 địa chỉ email bằng cách thay đổi các ký tự:

Trang 6

+ Ví dụ email1@gmail.com, email1@yahoo.com …và email2@gmail.com

điện tử để gửi lên hàng triệu địa chỉ email bất kỳ và sẽ kiểm tra xem địa chỉ email nào còn hoạt động hay không,nếu còn hoạt động địa chỉ đó sẽ được cho vào danh sách của SPAMMER”

Một công cụ thu thập địa chỉ email bằng phương thức Dictionary attack

Cách để có địa chỉ email đơn giản nhất là mua lại địa chỉ từ các spammer,hay trao đổi số email có được với nhau giữa các spammer… Khi đã có một lượng email nhất định thì hành động tiếp theo của họ là gửi spam

để xây dựng một botnet Trước hết spammer dùng các công cụ cũng như các thủ đoạn cần

thiết để cài đặt một phần mềm cho phép kiểm soát máy tính từ xa lên hệ thống của người

Trang 7

dùng Các máy tính như thế đã trở thành một “ZombiePC”, đã bị kiểm soát Sau đó

spammer tiến hành xây dựng một hệ thống các ZombiePC – tức là botnet Như vậy các spammer đã có hệ thống như cách thứ nhất mà không cần phải tốn nhiều chi phí Khi đó các Zombie này phải liên tục gửi đi các email spam, đường truyền Internet của máy Zombie sẽ bị chậm đi và các tài nguyên đều bị sử dụng, chưa kể chúng sẽ trở thành nạn nhân bất đắc dĩ khi bị phát hiện đã gửi email spam

Cách thức thứ hai là một cách nguy hiểm và độc hại không thua kém các phần mềm virus, trojan… vì để kiểm soát được máy tính của người khác thì spammer phải khai thác các lỗi về bảo mật và các phần mềm kiểm soát máy tính người dùng từ xa cũng

là các phần mềm virus, trojan… Như vậy spam đã trở thành công cụ phát tán virus, trojan… và ngược lại các phần mềm độc hại đó là công cụ gửi spam

III Các biện pháp phòng chống spam

1 Internet mail và spam:

Kiến trúc hệ thống mail gồm có 4 thành phần chính:

- Mail User Agents (MUAs): còn được gọi là Email client, được sử dụng ở phía người dùng để gửi và nhận mail

- Mail Submission Agents (MSAs): được xem như các Mail server xử lý luồng đi

ra, đây là những server mà MUA truyền thông để gửi mail

- Mail Delivery Agents (MDAs): được xem là các Mail server xử lý luồng đi vào, các server này sẽ lưu giữ các mail được gửi tới cho các user cho đến khi họ tải chúng về MUA hay xóa bỏ

- Mail Transfer Agents (MTAs): là các Mail server trung gian, giúp cho việc chuyển tiếp giữa MSA đến MDA được thuận tiện hơn MTA có thể chuyển tiếp

dữ liệu đến các MTA khác trước khi đến MDA

Trang 8

Trong mô hình thí dụ trên, ta thấy có 2 MUA của 2 người gửi là Alice và Carl, họ cùng dùng một MSA để gửi dữ liệu đến cho Bob MSA này sẽ chuyển mail đến cho MDA của Bob qua MTA A thuộc domain của Alice Luồng dữ liệu đi trong domain của Alice có thể qua nhiều MTA, MTA cuối cùng thuộc domain phía gửi có khi được gọi là MTA ngõ ra biên Các MTA ngõ ra biên (MTA A) sẽ chuyển dữ liệu đến cho MTA ngõ vào biên thuộc domain phía nhận (MTA B) Các MDA phía Bob sẽ nhận mail từ các MTA ngõ vào biên này trực tiếp hay qua các MTA trung gian

MUA của Bob sẽ liên lạc với MDA để tải mail về, giao thức thường sử dụng là POP (Post Office Protocol), IMAP (Internet Message Access Protocol) hoặc web-form đối với dạng web-mail Quá trình này sẽ được xác thực để ngăn chặn việc đọc và điều chỉnh trái phép hộp mail của Bob Dạng web-mail thì thường được đảm bảo bằng cách gửi đi username và password trên một kết nối bảo mật POP và IMAP cũng có hỗ trợ vài

cơ chế xác thực bằng câu lệnh USER và PASS hay cải tiến hơn với Keberos và các giao thức sử dụng S/key

Để đạt được kết nối tốt nhất, không cần bất kỳ một sự sắp đặt trước nào giữa MTA biên cho luồng mail ra (MTA A) và MTA biên cho luồng mail vào (MTA B) Kết nối giữa chúng không đòi hỏi quá trình xác thực, MTA B sẽ nhận dạng được MTA A bằng cách xem trường địa chỉ nguồn trong gói IP nhận được từ MTA A Nếu MTA A là giả mạo hay gửi một lượng mail spam lớn, MTA B có thể loại bỏ hoặc từ chối kết nối MTA B có thể chuyển lượng spam nhận được từ MTA A sang một dịch vụ chống spam, dịch vụ này thường sẽ lập một danh sách đen (blacklist) với các địa chỉ IP và tên miền spam

Cơ chế này cho phép các MTA biên ngõ vào (MTA B) có thể nhận hay khóa luồng mail dựa vào địa chỉ phía gửi trong trường hợp nó nhận trúng spam hoặc địa chỉ này đã có trong blacklist mà nó sử dụng Người phá hoại có thể sử dụng nhiều địa chỉ IP khi gửi mail bằng cách sử dụng SMTP, như vậy thì việc khóa địa chỉ sẽ gặp khó khăn Tuy nhiên, với IPv4 hiện đang sử dụng thì trường địa chỉ IP sẽ thiếu, một chi phí đáng kể

sẽ kèm theo mỗi địa chỉ IP Do đó, spammer không thích dùng một lượng lớn địa chỉ IP

và như vậy việc khóa địa chỉ IP vẫn có hiệu quả rất cao

Spammer có thể sẽ cố gắng sử dụng địa chỉ IP của chính những nạn nhân của mình Do giao thức SMTP chạy trên kết nối TCP, đòi hỏi spammer phải chấp nhận những gói được gửi đến, sau đó gửi gói đi với địa chỉ IP nguồn là địa chỉ của nạn nhân, đây chính là kiểu tấn công Man In The Middle (MITM) Muốn tấn công MITM, spammer phải kiểm soát được tuyến đi của gói, tuyến này thường được quản trị domain bảo vệ rất tốt Vì vậy mà spammer ít sử dụng kiểu tấn công này do nó khó hơn việc giả địa chỉ IP

Để giải quyết trường hợp spammer có thể mua cả một miền địa chỉ IP hoặc có khả năng tấn công MITM trên một tập địa chỉ IP thuộc về một domain, người nhận sử dụng danh sách đen vẫn có được thuận lợi từ việc địa chỉ IP được phân phối theo các block liên tục nhau Xác suất mà server và blacklist nhận spam từ các địa chỉ thuộc cùng một block

là rất lớn, do đó có thể cho toàn bộ block địa chỉ này vào blacklist

Điều này cũng làm nảy sinh vấn đề là các domain phải kiểm soát được lượng spam gửi đi để tránh bị liệt toàn domain vào danh sách bị khóa Domain phải cố gắng cấm các máy không được cấp quyền (Unauthorized computer) trong domain của mình

Trang 9

gửi mail trực tiếp đến các domain khác, đặc biệt là hạn chế việc các máy này sở hữu nhiều địa chỉ IP khác nhau

Để hạn chế khả năng các mail không thuộc domain được gửi đến cho một MTA biên chỉ định nào đó, port 25(SMTP sử dụng) giữa hai MTA biên sẽ được khóa, ngăn chặn các máy truy cập trái phép kết nối ra ngoài domain qua port 25

Ngoài ra, domain cũng cần giới hạn lượng spam gửi đi bằng cách ủy quyền cho MTA biên ngõ ra MTA này sẽ sử dụng một bộ lọc để xác định và loại bỏ luồng spam đi

ra, các phương pháp lọc này thường yêu cầu sự xác thực từ phía người gửi, sẽ rất đơn giản đối với user thuộc domain nhưng lại phức tạp đối với các user bên ngoài domain

Để cho phép các user bên ngoài domain vẫn có thể kết nối đến được Mail server,

ví dụ như MUA của Carl kết nối đến MSA thuộc domain A, nhiều domain yêu cầu MUA của Carl phải sử dụng một kết nối có xác thực Điều này có thể thực hiện theo nhiều cách: sử dụng SMTP AUTH mở rộng (password được chuyển đi dưới dạng cleartext) hay

cơ chế xác thực có mã hóa (sử dụng kết nối SMTP cùng giao thức SSL - Secure Socket Layer) Kết nối có xác thực này thường chạy trên port 587 thay vì 25 nhằm tránh bị khóa bởi ISP ở xa (Remote ISP)

Khi một MTA nhận một email, nó sẽ chuyển đến cho một mail agent nào đó trên con đường đến đích, do chức năng chuyển tiếp này mà nó được xem như một Relaying Trước đây, hầu hết các Mail server đều cho phép chuyển tiếp các email mà không quan tâm đến nguồn gửi cũng như đích đến, các Mail server như vậy được gọi là một Open relay

Ngoài ra, hầu hết các Mail server (MTA B) sẽ từ chối tất cả các message đến từ một Open relay mà nó biết (MTA X) hoặc từ bất kỳ một MTA thuộc về domain chuyên gửi spam Có thể dễ dàng thực hiện bằng cách so sánh địa chỉ IP của MTA gửi mail với địa chỉ IP của Open relay trong blacklist

Khi phát hiện ra spam, nên liên hệ với MTA biên nhận spam(MTA B) để xác định MTA biên phát tán spam (MTA A) Để làm được đòi hỏi phải biết được các Mail agent

mà spam đã đi qua(Trace-back), mỗi khi nhận được một mail, Mail agent sẽ lưu giữ lại thông tin nhận dạng của server gửi mail đi, nó sẽ thêm vào dòng RECEIVED trong Header của mail các thông tin như: thời gian nhận mail, tên domain cũng như địa chỉ IP Đây là cơ sở xác thực của các Mail agent, giúp blacklist ngăn chặn luồng mail spam

Tuy vậy, quá trình này không đảm bảo User sẽ xác nhận được account của người gửi mail nhờ vào MUA MUA điền thông tin của người gửi ở trường FROM hoặc SENDER trong header của các lá mail Trên thực tế, nhiều MSA cho phép người dùng đầu cuối sử dụng địa chỉ bất kỳ trong trường FROM hoặc SENDER của header Điều này cho phép user sử dụng cùng một địa chỉ trong khi sử dụng nhiều MSA để tiếp nhận mail này Do đó, khi một MTA nhận mail từ một domain khác nó sẽ không căn cứ vào địa chỉ người gửi trong trường FROM của mail header, nó phải có một cơ chế để xác thực địa chỉ người gửi hoặc địa chỉ domain Như vậy địa chỉ người gửi trong mail header là không đáng tin cậy, địa chỉ này có thể dễ dàng bị giả mạo Những địa chỉ này được dùng để gửi spam, chúng hiển thị dưới dạng một sender quen thuộc với người dùng, đi qua được các

bộ lọc tự động và khiến user sẽ đọc mail thay vì xóa bỏ Các mail giả này thường làm cho người dùng nhầm lẫn khi dựa vào địa chỉ nguồn, chẳng hạn như tấn công Phishing Các

Trang 10

địa chỉ giả có thể dễ dàng có được từ các trang web, các forum hoặc lấy danh sách địa chỉ

từ các máy tính bị xâm nhập Trong một số trường hợp, địa chỉ giả chính là địa chỉ của một nạn nhân nào đó, như vậy nạn nhân sẽ bị hiểu nhầm là người gửi spam

2 Các phương pháp phòng chống spam

Có rất nhiều cơ chế phòng chống spam, nhìn chung được phân loại như sau:

Theo cách phân loại trên, phương pháp Identity-based và Cost-based đòi hỏi sự chấp nhận giữa hai bên gửi, nhận hoặc các mail agent, trong khi đó phương pháp Content filtering chỉ đòi hỏi phía người nhận

Ba hướng chính giúp xử lý spam là:

Phương pháp Content filtering rất dễ triển khai, nó chỉ đòi hỏi sự chấp thuận từ phía nhận và giúp loại bỏ tức thời một lượng mail spam Do tính chất dễ triển khai, tỉ lệ lỗi âm và lỗi dương thấp nên phương pháp này được sử dụng rộng rãi Tuy nhiên phương pháp này có hạn chế trong việc mở rộng và tái triển khai

Trang 11

Cơ chế xử lý spam mà không dựa trên Content filtering có thể chia thành hai hướng là:

- Cost – based : phương pháp này hướng đến việc đảm bảo người gửi spam sẽ mất

một chi phí đáng kể Chi phí này có thể áp dụng trên mỗi thông điệp gửi đi(mỗi loại sẽ có một mức phù hợp), hoặc chỉ cho các mail spam hay cho tất cả các mail nhưng có kèm theo cơ chế hoàn trả lại chi phí cho các mail không phải là spam

- Identity – based: xử lý dựa trên việc nhận dạng mail agent, có 2 hướng tiếp cận: + Identification: nhận dạng sender hoặc các thành phầ

Tuy nhiên, việc đưa chi phí khi gởi email là khó khăn, có thể còn hơn thế khi mà chi phí được tính toán bằng tiền Cụ thể, người sử dụng cảm thấy khó chịu khi phải trả phí email, trong khi email là miễn phí Điều này có thể giải quyết bằng giao thức chắc chắn rằng người dùng chỉ trả phí cho spam, hoặc được trả lại tiền khi không phải là thông điệp spam

Người dùng phản đối lại việc trả phí cho email sẽ được giảm đi khi ta dùng

payment, nó không là tiền tệ, nhưng nó đòi hỏi sự nỗ lực của người dùng và/hoặc tài

nguyên máy tính Hơn nữa payment yêu cầu thao tác giữa người gởi và người nhận, và chấp nhận những chi phí khá nhỏ

Kỹ thuật Non-monetary được sử dụng cho nhiều người, không lệ thuộc tài chính,

không phải trả chi phí Dưới đây là một dạng của kỹ thuật Non – monetary

Human Effort và Human Interaction Proofs (HIP): Một trong những lý do spam

khá rẻ, là trên thực tế nó được gởi vào “in bulk” một cách tự động bằng chương trình, thao tác tay ít nhất Theo đó, một phương pháp để điều khiển spam là chắc chắn rằng bạn đang cố gắng một số thao tác tay để gởi email, việc này thực hiện dễ dàng với người và

sẽ khó khăn nếu là chương trình máy tính Điển hình là HIP HIP được áp dụng trong nhiều trường hợp, chắc chắn rằng máy không thể làm tự động đầy đủ yêu cầu được Có thể ứng dụng trong khi bạn gởi mail đặc biệt, mở một tài khoản webmail miễn phí, gia nhập vào forum, … HIP được đề xuất đầu tiên sử dụng tên CAPTCHA (Completely

Trang 12

Automated Public Turing test to tell Computers and Humans Apart) HIP dạng quen thuộc thường là ảnh chứa một chuỗi, nhưng chuỗi hiện thường dưới dạng nham nhỡ, méo

mó, và chỉ có con người mới nhận ra các mẫu tự Ví dụ như dạng chuỗi dưới đây

Mục đích của việc sử dụng HIP chống lại Spam là Spammer sẽ tiêu tốn nhiều tài nguyên để thực hiện các tác vụ, làm pam không sinh lợi (hoặc ít nhất) Một hạn chế của phương pháp này là trở ngại cho người sử dụng, một số người cự tuyệt hoặc làm sai thao tác, đến mức xấu hơn khi người sử dụng là những người khiếm thị hoặc khuyết tật Hơn thế nữa, nó luôn là lời cảnh báo rằng có chương trình và thuật toán tự động hóa với HIP, không cần sự tương tác của con người Một báo gần đây đã cho thấy rằng tối thiểu được thao tác để nhận dạng ra một ký tự nham nhỡ, méo mó; chương trình cho kết quả còn tốt hơn cả con người thực hiện

Trong trường hợp đặc biệt, một kẻ tấn công, chẳng hạn như site xxx (site thu hút nhiều người tham gia), nó hiển thị HIP cho khách viếng thăm, và lại sử dụng hồi đáp đó của khách để giải quyết HIP trên trang web thật Loại này được biết đến như là kiểu tấn công Man In The Middle (như hình dưới đây) Hơn nữa, kẻ tấn công có thể thuê cá nhân nào đó giải quyết HIP với giá khá rẻ

Theo cách hoạt động như thế thì HIP phải thay đổi các chuỗi ký tự để tránh việc dùng lại chuỗi trước Như vậy spammer sẽ phải tốn nhiều tài nguyên để thực hiện tính toán, làm cho lợi ích họ thu được không nhiều (tối thiểu nhất) Tuy nhiên, với những spammer dùng zombies để gởi spam thì họ không quan tâm đến việc tính toán chi phí, trong khi các nạn nhân bị tàn phá tài nguyên (trong mỗi email không hợp pháp hoặc là spam gởi bằng máy tính của họ) Chưa hết, kỹ thuật này ngăn chặn việc gởi mail từ các thiết bị giới hạn tính toán hoặc các thiết bị client dễ bị hư hỏng, chẳng hạn như thiết bị di dộng

Secure Automated Resolution Protocol (SeARP):

SeAR là một giao thức mật mã để điều khiển spam, với điều kiện đền bù từ người

gởi spam đến người nhận (miễn cưỡng), spam được nhận dạng bằng 1 hay nhiều resolve agent (RA)

SeARP được xây dựng bằng cách xác thực thông điệp mã hóa, và xác thực domain (DKIM), ngoài ra còn có một vài chức năng mở rộng như:

- Xác thực trường nội dung nhãn (content – label), ví dụ, nội dung nhãn có thể chứa

1 trong 2 giá trị ADV (quảng cáo/thương mại), và non – ADV

Trang 13

- SeARP cho phép các domain mail – originating xác thực thông điệp bằng chữ ký

số, hoặc Message Authentication Code (MAC), sử dụng MAC thích hợp khi domain nguồn và domain nhận thư có mối quan hệ tin cậy lâu dài

- SeARP cho phép địa chỉ email người gởi thuộc nhiều domain khác nhau từ ký hiệu hoặc xác thực domain Khi địa chỉ của người gởi thuộc domain khác, nó có thể bị bắt chước hoặc được cấp sử dụng; người nhận có thể tùy quyết định, nhận hoặc bỏ nếu sợ bị giả mạo Trong nhiều trường hợp, SeARP chỉ bảo đảm cho mối quan hệ giữa thông điệp và nội dung nhãn gắn với nó

- SeARP đính kèm theo trường xác thực trong thông điệp

RA là một thực thể chính trong SeARP Nó dễ thấy tại mail agent của người gởi

và người nhận Tuy nhiên, người gởi và người nhận có thể chấp nhận (hoặc không) cho

sự phán xét của RA (nội dung nhãn l có phù hợp với thông điệp m hay thông điệp là spam?)

Giao thức SeARP chạy giữa 3 thực thể: agent gởi mail, agent nhận mail, và RA

Để đơn giản, ta giả sử chỉ có 2 agent, là Mail Submission Agents (MSA) của Alice duyệt thông điệp, và Mail Delivery Agents (MDAs) phân phát thông điệp cho Bob, và giả sử agent gởi mail biết agent nhận hỗ trợ SeARP

Mỗi SeARP agent tương tác với nhau bằng cách trao đổi thông điệp, và tương tác

giữa người gởi, người nhận và người phân tích – resolver (giả sử ta gọi là Ros) Ros sẽ

thực hiện dịch vụ giải quyết cuối cùng cho RA

Ba người (Alice, Bob, Ros) sẽ chịu trách nhiệm cho việc ánh xạ từ thông điệp sang nhãn: Alice cung cấp nhãn của thông điệp, Bob lẫn Ros xét nhãn nếu nó đúng Một lưu ý rằng, khi đề cập đến thực thể “human”, để hiểu đơn giản hơn, trong thực tế chúng

có thể là các module phần mềm và phần cứng giữa các agent và bất kỳ một người thật nào Đúng ra RA và người nhận sẽ sử dụng kỹ thuật lọc nội dung để thực hiện ước lượng ban đầu

Hoạt động của SeARP:

Hình: mô tả hoạt động của SeARP

Trang 14

Hình trên là một ngữ cảnh đơn giản, SeARP được sử dụng để điều khiển spam từ Alice và Bob, đi qua mail agent có SeARP, một là của Alice và một của Bob, và sử dụng một agent phân tích do Ros điều khiển

Trong hình trên có 3 agent là MSA của Alice, MDA của Bob, RA của Ros; và 3 người kết nối đến từng agent: Alice (người gởi), Bob (người nhận), và Ros (người phân tích) Hoạt động của giao thức SeARP thực hiện theo từng bước sau:

Bước 1: Khởi tạo, Bob chỉ định rõ thiết lập tập “nhãn chấp nhận” L, MDA của Bob sẽ chỉ phân phát đến Bob các nhãn l thuộc tập L

Bước 2: Alice gởi thông điệp m với nhãn l đến MSA của Alice

Bước 3: MSA của Alice gởi m, l, σ đến MDA của Bob, với σ = SignA(m, l, T,  , Bob) là chữ ký của MSA phía Alice ghi trên thông điệp m, nhãn l, cùng với thời hạn cho thông điệp là T, cộng thêm thông tin α cho phép MSA của Alice để phục hồi lại chi tiết lần gởi thông điệp đó Và cuối cùng là nhận dạng của Bob

Bước 4: MDA của Bob xác định thông điệp vẫn còn giá trị (so sánh thời gian T với hiện tại), và l có thuộc tập L Nếu hợp lệ, nó phân phát m, l cho Bob

Bước 5: Bob đưa cho MDA của mình nhãn “thật” của thông điệp, l’ Nếu l’ = l, thông điệp sẽ được dán nhãn hợp lý, nếu không thì thông điệp đó là spam

Bước 6: Nếu Bob khẳng định đó là spam (l  l’), MDA của Bob gởi một σ’=SignB(σ, l’) cho RA, là khóa ký hiệu của nó

Bước 7: RA forward m, l, l’ đến cho người phân tích Ros

Bước 8: Ros tính toán m, l, l’ và gởi kết quả r cho RA Kết quả quyết định hình phạt dành cho spam hoặc do Bob đã kết tội cho Alice gởi spam, làm hao tốn tài nguyên người phân tích

Bước 9: RA gởi phân tích SignR(σ’, r) cho MSA của Alice và MDA của Bob Nếu

RA cũng là nhà cung cấp dịch vụ Payment cho Alice và Bob, nó sẽ cập nhật cho phù hợp với điều khoản đặt trước của Alice và Bob

Bước 10: Nếu phân tích cho thấy thông điệp là spam (l không phải là nhãn của m), MSA của Alice gởi kết quả cho Alice Nhờ sử dụng α, có thể giúp MSA xác định được người gởi là Alice Từ đó MSA của Alice có thể hạn chế số lượng thông điệp gởi trong ngày

4 Filter

Ý tưởng của biện pháp này là đánh giá nội dung của email, sau đó quyết định loại

bỏ nó nếu nó là một spam Biện pháp này có hiệu quả với các mail virus Tuy nhiên nó vẫn còn hạn chế vì có một số mail hợp pháp bị loại bỏ, ví dụ như mail xác thực đặt vé máy bay, mail tin tức hay các mail quảng cáo bán hàng đã lựa chọn…

Phương pháp filter có 4 hướng tiếp cận:

- ISP: việc ngăn chặn spam đầu tiên được thực hiện tại nhà cung cấp dịch vụ Bạn

có thể đăng ký các dịch vụ phòng chống spam cho mình Trên cơ bản các dịch vụ có thể

Trang 15

nhận dạng ra hầu hết spam và giữ họ lại mail server, email sẽ được kiểm tra trước khi gởi đến hộp thư của bạn

- Commercial (dịch vụ thương mại): là các dịch vụ cho phép bạn tùy chọn ngăn chặn spam, ví dụ như dịch vụ peer-to-peer của tại Cloudmark.com

- Mã hóa: áp dụng tương đối ít, TMDA ( Tagged Message Delivery Agent) ngăn chặn spam bằng phương pháp mã hóa để xác nhận tính hợp lệ của các người gởi không rõ danh tánh

- Và cuối cùng là các ứng dụng lọc spam riêng của mỗi người, được xây dựng kết hợp với email

Các biện pháp filter thường được sử dụng:

- Bayesian:Bộ lọc Bayesian hoạt động dựa trên định lý Bayes để tính toán xác

suất xảy ra một sự kiện dựa vào những sự kiện xảy ra trước đó Kỹ thuật tương tự như vậy được sử dụng để phân loại spam Nếu một số phần văn bản xuất hiện thường xuyên trong các spam nhưng thường không xuất hiện trong các email thông thường, thì có thể kết luận rằng email đó là spam

Trước khi có thể lọc email bằng bộ lọc Bayesian, người dùng cần tạo ra cơ sở dữ liệu từ khóa và dấu hiệu (như là ký hiệu $, địa chỉ IP và các miền ) sưu tầm từ các spam

và các email không hợp lệ khác

Mỗi từ hoặc mỗi dấu hiệu sẽ được cho một giá trị xác suất xuất hiện, giá trị này dựa trên việc tính toán có bao nhiêu từ thường hay sử dụng trong spam, mà trong các email hợp lệ thường không sử dụng Việc tính toán này được thực hiện bằng cách phân tích những email gửi đi của người dùng và phân tích các kiểu spam đã biết

Để bộ lọc Bayesian hoạt động chính xác và có hiệu quả cao, cần phải tạo ra cơ sở

dữ liệu về các email thông thường và spam phù hợp với đặc thù kinh doanh của từng

công ty Cơ sở dữ liệu này được hình thành khi bộ lọc trải qua giai đoạn “huấn luyện”

Người quản trị phải cung cấp khoảng 1000 email thông thường và 1000 spam để bộ lọc phân tích tạo ra cơ sở dữ liệu cho riêng nó

- Heuristic: tìm kiếm các dạng mẫu biết trước của một vài các thông điệp spam

thường gặp, ví dụ, một vài từ (XXX, FREE…) hoặc file chứa virus Các mẫu được chọn lọc qua sử dụng heuristic và các tiến trình thông thường Cách lọc các mẫu có sẵn thế này khá yếu, spammer có thể tránh được các mẫu thông điệp được cài đặt mặc định bằng cách

chèn thêm các ký tự khoảng cách (từ spam thành s*p*a*m) hoặc viết sai chính tả của từ (sppam) Cách này phân tích hành vi của trang web, kiểm tra kỹ thuật mà kẻ làm giả

thường thực hiện

- Adapter: lọc các tập hợp thống kê từ tập hợp email và hành động của người

dùng khi nhận thông điệp, nó sẽ tự động phân loại và nhận dạng ra spam Hiện nay, các thống kê lọc khá hiệu quả, được đánh giá chỉ có 0.03% là nhầm lẫn (giữa email hợp pháp

và spam), 0.5% là không phát hiện được spam

Tuy nhiên, đến khi các thống kê lọc này trở nên khá phổ biến, spammer có thể dần dần điều chỉnh bằng cách tránh hoặc làm sai lệch bất kỳ chuỗi gần giống chuỗi bị lọc

Định dạng
Số trang	31
Dung lượng	0,94 MB