Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC CÁC HÌNH VẼ Hình 1.1: So sánh thư rác với các thư điện tử khác.. Số hĩa bởi Trung tâm Học liệu – ĐHTN http://www.
Trang 1Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 2Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 3Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này của tự bản thân tôi tìm hiểu, nghiên cứu dưới sự hướng dẫn của TS Vũ Mạnh Xuân Các chương trình thực nghiệm do chính bản thân tôi lập trình, các kết quả là hoàn toàn trung thực Các tài liệu tham khảo được trích dẫn và chú thích đầy đủ
TÁC GIẢ LUẬN VĂN
Phùng Thị Thu Trang
Trang 4Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI CẢM ƠN
Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể các thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam, các thầy cô giáo Trường Đại học Công nghệ thông tin và truyền thông - Đại học Thái Nguyên đã dạy dỗ chúng tôi trong suốt quá trình học tập chương trình cao học tại trường
Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Vũ Mạnh Xuân đã quan tâm, định hướng và đưa ra những góp ý, gợi ý, chỉnh sửa quý báu cho tôi trong quá trình làm luận văn tốt nghiệp Cũng như các bạn bè, đồng nghiệp, gia đình và người thân đã quan tâm, giúp đỡ và chia sẻ với tôi trong suốt quá trình làm luận văn tốt nghiệp
Dù đã có nhiều cố gắng nhưng chắc chắn sẽ không tránh khỏi những thiếu sót vì vậy rất mong nhận được sự đóng góp ý kiến của các thầy, cô và các bạn để luận văn này được hoàn thiện hơn
Tôi xin chân thành cảm ơn!
Thái Nguyên, tháng 08 năm 2015
Phùng Thị Thu Trang
Trang 5Số hĩa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỤC LỤC
DANH MỤC CÁC HÌNH VẼ vi
DANH MỤC CÁC BẢNG vii
MỞ ĐẦU 8
Chương 1 NGHI N C U T NG QUAN VỀ TH RÁC 3
1.1 Giới thiệu về thư rác 3
1.1.1 Lịch sử 3
1.1.2 Định nghĩa 4
1.1.3 Mục đích chính gửi thư rác 5
1.1.4 Các đặc tính của thư rác 6
1.1.5 Các kỹ thuật tạo thư rác 7
1.2 Các kỹ thuật phát hiện và ngăn chặn thư rác 8
1.2.1 Kỹ thuật blacklisting 8
1.2.2 Kỹ thuật whitelisting 9
1.2.3 Kỹ thuật heuristic filtering 11
1.2.4 Kỹ thuật challenge/ response 13
1.2.5 Phân tích và định hướng phát triển ứng dụng thử nghiệm 14
1.3 Kỹ thuật dùng học máy 15
1.3.1 Support vector Machine (SVM) 16
1.3.2 K–Nearest Neighbor (kNN) 18
1.3.3 Nạve Bayes (NB) 19
1.3.4 Mạng Neural (Nnet) 21
Chương 2 HỆ MIỄN DỊCH NHÂN TẠO 23
2.1 Hệ miễn dịch 23
2.1.1 Hệ miễn dịch sinh học 23
2.1.2 Hệ miễn dịch nhân tạo 27
2.2 Một số định nghĩa 31
2.2.1 Self 32
2.2.2 NonSelf 32
2.2.3 Bộ dị 32
2.2.4 Tập bộ dị ChunkD(S, r) và ContD(S, r) 32
2.2.5 Khả năng phát hiện của tập bộ dị 33
Trang 6Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.2.6 Hole 34
2.3 Thuật toán sinh tập bộ dò r-chunk 34
2.3.1 Thuật toán 35
2.3.2 Độ phức tạp thuật toán 36
2.4 Thuật toán sinh tập bộ dò dạng r – contiguous 38
2.4.1 Thuật toán 38
2.4.2 Độ phức tạp thuật toán 39
2.5 Các nghiên cứu gần đây 42
Chương 3 CÀI ĐẶT THỬ NGHIỆM 44
3.1 ng dụng hệ miễn dịch nhân tạo trong lọc thư rác 44
3.1.1 Phát biểu bài toán 44
3.1.2 Cơ sở dữ liệu TREC'07 45
3.1.3 Thiết kế phần mềm 46
3.1.4.Phân tích thuật toán 47
3.1.5 Giao diện chương trình và kết quả 48
3.1.6 Đánh giá 51
3.2 So sánh với các thuật toán trên WEKA 51
3.2.1 Phát biểu bài toán 51
3.2.2 Cơ sở dữ liệu SpamBase 52
3.2.3 Phần mềm WEKA 54
3.2.4 Thiết kế phần mềm 57
3.2.5 Phân tích thuật toán 58
3.2.6 Giao diện chương trình và kết quả 61
3.2.7 Đánh giá 65
KẾT LUẬN 67
DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ 69
TÀI LIỆU THAM KHẢO 70
Trang 7Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT Viết tắt Viết đầy đủ
Trang 8Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC CÁC HÌNH VẼ
Hình 1.1: So sánh thư rác với các thư điện tử khác 5
Hình 1.2 Mô hình SVM 17
Hình 1.3 Siêu phẳng h phân chia dữ liệu 17
Hình 2.1 Các tầng miễn dịch sinh học 24
Hình 2.2 Một số cơ quan của hệ miễn dịch sinh học 26
Hình 2.3 Cấu trúc phân tầng của HMD nhân tạo 27
Hình 2.4 Sơ đồ khối thuật toán chọn lọc tích cực 29
Hình 2.5 Sơ đồ khối thuật toán chọn lọc tiêu cực 31
Hình 3.1 Giao diện chương trình lọc spam trên bộ CSDL TREC'07 49
Hình 3.2 Kết quả quá trình test 50
Hình 3.3 Giao diện phần mềm Weka 55
Hình 3.4 Giao diện Weka Explorer 55
Hình 3.5 Giao diện Weka Explorer sau khi chọn CSDL Spambase 56
Hình 3.6 Phân loại dữ liệu 57
Hình 3.7 Giao diện chương trình 61
Trang 9Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC CÁC BẢNG
Bảng 1.1 Các phần mềm chống thư rác 14
Bảng 2.1 Sự tương quan giữa hệ miễn dịch với môi trường mạng 31
Bảng 3.1 Kết quả khi chạy chương trình với 9 bộ test 50
Bảng 3.2 So sánh kết quả 51
Bảng 3.3 Kết quả thử nghiệm trên WEKA và NSA 63
Bảng 3.4 So sánh NSA với một số phương pháp cho kết quả tốt hơn 63
Bảng 3.5 So sánh NSA với một số phương pháp cho kết quả thấp hơn 64
Bảng 3.6 Kết quả so khớp với giá trị tham số r thay đổi 65
Trang 10Số hĩa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Cĩ nhiều kỹ thuật lọc thư rác khác nhau như: Blacklisting, Whitelisting, Heuristic filtering, Challenge/ Response, Throttling, Address obfuscation, Collaborative filtering,…Tuy nhiên, đa số các phần mềm chống thư rác là dựa trên header của thư hoặc địa chỉ từ người gửi nhằm tăng tốc độ Các phương pháp học máy gần đây được quan tâm nhiều vì chúng cĩ khả năng thích nghi cao với sự tiến hĩa của thư rác như phương pháp dựa trên xác suất Nạve Bayes, phương pháp học máy vectơ hỗ trợ (Support vector machine), phương pháp phân loại dựa trên láng giềng gần nhất (k-nearest neighbors)
Hệ miễn dịch nhân tạo là một hệ thống thích nghi lấy ý tưởng của học thuyết miễn dịch và những chức năng, nguyên tắc, mơ hình miễn dịch quan sát được, áp dụng giải các bài tốn thực tế Nĩ cĩ nhiều ứng dụng khác nhau, nhưng chủ yếu được áp dụng vào lĩnh vực an ninh mạng và an ninh máy tính Với lý do trên, đề tài “Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác” tập trung nghiên cứu về hệ miễn dịch nhân tạo và ứng dụng một số kỹ thuật cải tiến thuật tốn miễn dịch áp dụng cho bài tốn lọc thư rác để cĩ thể
áp dụng cho khơng gian dữ liệu lớn
Đối tƣợng và phạm vi nghiên cứu
- Nghiên cứu lý thuyết về hệ miễn dịch sinh học và hệ miễn dịch nhân tạo
Trang 11Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- ng dụng hệ miễn dịch nhân tạo vào quá trình lọc thư rác
- Đánh giá hiệu suất của phương pháp đề xuất với một số cách tiếp cận học máy khác như Naive Bayes, Support Vector Machine, …
Nội dung chính của đề tài
- Tìm hiểu, đánh giá ưu nhược điểm của một số phương pháp lọc thư rác
- Nghiên cứu ứng dụng hệ miễn dịch nhân tạo trong quá trình huấn luyện
dữ liệu và lọc thư rác
- Lập trình thử nghiệm lọc thư rác ứng dụng Hệ miễn dịch nhân tạo
- So sánh phương pháp sử dụng hệ miễn dịch nhân tạo với một số phương pháp khác
Kết quả chính của đề tài đã được nhóm tác giả công bố trong một bài báo đăng trên tạp chí Khoa học và Công nghệ của Đại học Thái nguyên (số 135 (05), 2015, trang 185)
Trang 12Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 1 NGHI N CỨU T NG QUAN VỀ THƯ RÁC
Một trong những dịch vụ mà Internet mang lại đó là dịch vụ thư điện tử, đây là phương tiện giao tiếp rất đơn giản, tiện lợi, rẻ và hiệu quả giữa mọi người Tuy nhiên chính vì những lợi ích của dịch vụ thư điện tử mang lại mà
số lượng thư trao đổi trên Internet ngày càng tăng, và hầu hết trong số những thư đó là thư rác (email spam) Thư rác thường được gửi với số lượng rất lớn, không được người dùng mong đợi, với nhiều mục đích khác nhau như: quảng cáo, đính kèm virus, gây phiền toái khó chịu cho người dùng, làm giảm tốc độ truyền internet và tốc độ xử lý của email server, gây thiệt hại rất lớn về kinh
tế Chương này sẽ khái quát các vấn đề về thư rác, ảnh hưởng của thư rác trong cuộc sống và các phương pháp ngăn chặn thư rác Các khái niệm và kết quả trong chương này được tham khảo trong [1], [2], [3], [4], [6], [8]
1.1 Giới thiệu về thư rác
1.1.1 Lịch sử
Có thể chia lịch sử của thư rác thành 3 giai đoạn sau:
1.1.1.1 Giai đoạn thứ nhất – những năm đầu của thư rác
Nhiều ý kiến cho rằng thư rác đầu tiên được phát tán trên mạng diện rộng
là vào năm 1978, đó là một quảng cáo từ Digital Equipment Corporation (DEC) Do dịch vụ thư điện tử lúc này chưa phát triển nên người phát tán thư rác (spammer) này phải đánh thủ công các địa chỉ thư điện tử muốn gửi và chỉ
có khoảng 320 trong tổng số các địa chỉ thư điện tử mà spammer muốn gửi nhận được thư rác này trong lần phát tán đầu tiên Vào 1988 xuất hiện kiểu
Trang 13Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thư rác khác là thư rác lừa đảo (như lừa đảo làm việc từ thiện, lừa đảo về kiếm tiền)
1.1.1.2 Giai đoạn thứ hai – thư rác được gửi thông qua phần mềm
Đầu thập niên 1990, với sự phát triển của Internet mang đến vấn nạn là số lượng thư rác tăng lên nhanh chóng Lúc này các spammer dùng các phần mềm để tự động việc gửi thư điện tử đến một danh sách các địa chỉ Ví dụ về thư rác phát tán qua các phần mềm tự động là thư rác Jesus và thư rác Cantel
và Siegel
Vào 1995 Jeff Slaton – tự nhận mình là “vua thư rác”, ông là một trong những người đầu tiên kiếm lợi nhuận từ các thư rác mà ông gửi đi, ông còn ép buộc các nạn nhân của mình trả phí nếu không muốn nhận thư rác Việc làm của ông tạo ra ý tưởng cho các công ty thương mại là thuê những người như Jeff Slaton để phát tán thư điện tử với mục đích là quảng cáo giúp họ
1.1.1.3 Giai đoạn thứ ba – phần mềm chống thư rác chống lại các phần mềm gửi thư rác
Vào 1996 xuất hiện các phần mềm chống thư rác đầu tiên như: Spamblock, Internet Death Penalty, tuy nhiên vẫn không làm giảm sự phát triển của thư rác Các địa chỉ thư điện tử của người dùng được rao bán cho các công ty, tổ chức muốn thực hiện quảng cáo trên thư điện tử Và từ 1997 đến nay sự phát triển của thư rác đã vượt quá sự kiểm soát, một thống kê cho thấy 97% tổng số thư điện tử được gửi trên mạng là các thư không mong muốn nhận từ người dùng [8]
1.1.2 Định nghĩa
Có nhiều tranh cãi về việc đâu là định nghĩa chính xác của thư rác (email SPAM), bởi vì thư rác mang tính cá nhân hóa nên khó mà nói lên được hết ý nghĩa của thư rác Nhiều ý kiến cho rằng thư rác là những “thư điện tử (email)
Trang 14Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
không mong muốn” Định nghĩa này cũng không thực sự chính xác, như một nhân viên nhận những thư điện tử về công việc từ sếp của họ, đây là những thư điện tử người nhân viên không mong muốn nhưng chúng không phải là thư rác Lại có ý kiến khác cho rằng thư rác là những “thư điện tử thương mại không được yêu cầu từ phía người nhận” - những thư này bao gồm các thư điện tử quảng cáo về các sản phẩm và thư điện tử lừa gạt Nhưng định nghĩa này cũng không thực sự chính xác, nó làm mọi người nghĩ rằng thư rác giống như là thư đáng bỏ đi (junk mail)
Sau đó có ý kiến cho rằng thư rác là “số lượng lớn thư điện tử không yêu cầu” và trong số đó các thư điện tử quảng cáo, thương mại chiếm đa số, đây
có lẽ là định nghĩa gần đúng với ý nghĩa của thư rác nhất [6]
Hình vẽ sau sẽ thể hiện rõ định nghĩa của thư rác:
Tất cả thư điện tử Thư điện tử không mong muốn Thư rác
Thư quảng cáo thương mại
Hình 1.1: So sánh thƣ rác với các thƣ điện tử khác
1.1.3 Mục đích chính gửi thư rác
Thư rác được gửi với các mục đích chính như sau:
- Quảng cáo sản phẩm, dịch vụ, … của tổ chức, công ty thương mại nào
Trang 15Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
cắp các thông tin quan trọng của nạn nhân và hệ thống
- Nói xấu, xuyên tạc ai đó, tuyên truyền những điều sai trái về chính trị
…
1.1.4 Các đặc tính của thư rác
- Thư rác chứa các đặc tính cơ bản sau:
Thư rác mang tính tương đối vì thư mang tính cá nhân, có thể một thư điện tử là vô bổ với người này nhưng lại có ích với người khác Ví dụ một thư điện tử quảng cáo/ rao vặt cho một sản phẩm cụ thể có thể được một số người quan tâm nhưng những người còn lại xem đó là rác
Tính bất biến trong một thư rác thể hiện ở những từ, cụm từ hầu như không thay đổi trong những lần gửi thư (Ví dụ: Tên người, tên công ty, tên sản phẩm, mã sản phẩm, tên website của sản phẩm, địa chỉ lưu trữ mua bán sản phẩm, …)
- Đặc tính phần header của thư rác [8]
Địa chỉ thư điện tử của người nhận sẽ không thể hiện ở trường “To:” hoặc “Cc:”, vì địa chỉ này sẽ được ẩn trong trường “Bcc:”, spammer thực hiện hành động này để giấu số lượng lớn các địa chỉ thư điện tử
mà spammer muốn gửi thư rác
Để nội dung trống hoặc thiếu trường “To:”
Trường “To:” thể hiện một địa chỉ thư điện tử không hợp lệ
Nội dung trường “From:” giống trường “To:”.
Thiếu trường “From:”
Định danh - ID của thư điện tử bị thiếu hoặc là ID giả
Trường “Bcc:” có tồn tại, vì ở các thư điện tử thông thường trường này thường không xuất hiện
Trường “X-mailer” – là trường thể hiện tên phần mềm dùng để gửi thư
Trang 16Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
điện tử, nếu trường này bao gồm tên của phần mềm gửi thư rác quen thuộc thì có thể xác định được là thư rác hay không
X-UIDL header: là một định danh duy nhất được sử dụng bởi các giao thức POP để lấy thư điện tử từ một máy chủ mail Nó thường được thêm vào giữa các máy chủ mail của người nhận và phần mềm thư điện tử của người nhận, nếu thư đến tại các máy chủ mail mà xuất hiện trường này thì là thư rác
Tồn tại các dòng mã lệnh hoặc khoảng trắng tuần tự Ví dụ như thêm
mã lệnh trên chủ đề của thư và dùng khoảng trắng để giấu
Tồn tại các dòng mã HTML không đúng quy tắc
- Nội dung của thư chứa các từ thường xuất hiện trong thư rác (kiếm tiền, giàu nhanh, chọn nhanh, )
- Sự giống nhau ở kích thước/ loại tập tin/ tên tập tin đính kèm thư rác ở các lần SPAM
1.1.5 Các kỹ thuật tạo thư rác
- Chỉnh sửa phần header của thư rác:
Nhập địa chỉ của các người nhận thư rác vào trường “Bcc:” thay vì trường “To:” hoặc “Cc:”
Thể hiện ở trường “To:” địa chỉ thư điện tử không hợp lệ để đánh lừa người nhận
đích đánh lừa người nhận thư rác
- Chỉnh sửa phần nội dung của thư rác:
Gửi cùng một văn bản thư rác nhiều lần mà không thay đổi gì hết
Đảo một số đoạn trong văn bản thư rác cho lần gửi kế tiếp
Xóa bớt một số đoạn trong văn bản thư rác cho lần gửi kế tiếp
Trang 17Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Thêm một số đoạn trong văn bản thư rác cho lần gửi kế tiếp
Thay đổi cách dùng từ nhưng ý nghĩa văn bản thư rác vẫn không đổi
Có nhiều loại danh sách blackhole khác nhau (IP blacklist, DNS blacklist, email blacklist) đưa đến nhiều mức độ lọc khác nhau trong cộng đồng mạng, cho các ISP tự do lựa chọn chính sách lọc thư rác phù hợp với mình Mỗi blackhole có một tập luật và điều kiện khác nhau để xác định thư rác Một vài danh sách quá khắt khe và quá nhiều điều kiện dẫn đến rủi ro các thư điện tử hợp lệ bị mất rất cao Các danh sách blackhole có 2 yếu điểm quan trọng:
Đầu tiên là thời gian lan truyền [6] Các danh sách blackhole sẽ thêm các địa chỉ mạng vào danh sách của nó chỉ khi mạng đó được dùng để phát tán thư rác Trước đây việc thêm các mạng đó vào danh sách là một việc tốt do kẻ phát tán thư rác khá bị động Nhưng ngày nay kẻ phát tán thư rác có thể đánh cắp tài khoản dialup, sử dụng các open relays (Máy trung gian giúp gửi mail) tạo ra các host
Trang 18Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
mới để gửi thư rác trước khi chúng được thêm vào danh sách blackhole
Thứ hai là chất lượng duy trì các danh sách blackhole [6] Ngày nay nhiều danh sách blackhole được duy trì kém Kết quả là một vài mạng hợp lệ bị thêm vào blacklist không bao giờ bị xóa, hay chậm xóa Những vấn đề này làm cho một số blacklist rất không được tin cậy do chúng khóa cả những thư điện tử hợp lệ
1.2.1.2 Ưu – khuyết điểm
Tốn nhiều công sức để duy trì danh sách blacklist
Whitelist là một danh sách các địa chỉ thư điện tử hay địa chỉ IP được coi
là không phát tán thư rác Các danh sách whitelist thường được sử dụng trong các ứng dụng thư điện tử để cho phép người dùng tạo ra danh sách những người mà họ muốn nhận thư điện tử Danh sách này sẽ ghi đè lên bất cứ danh sách blacklist nào, và nó cho phép thư điện tử được gửi vào hộp thư của
Trang 19Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
người dùng mà không cần phải lọc như thư rác
Whitelisting ngược với blacklisting, nó sử dụng một danh sách tin cậy Theo mặc định mọi người sẽ bị blacklist trừ khi họ có tên trong danh sách whitelist
Điểm khác biệt lớn nhất giữa kỹ thuật whitelisting và các kỹ thuật lọc nội dung là các kỹ thuật lọc nội dung được dùng để xác định thư rác, còn whitelisting được dùng để xác định người gửi Hầu hết các whitelist được quản lý riêng bởi mỗi người dùng vì số lượng thư điện tử hợp lệ rất là lớn
Kỹ thuật whitelisting có độ chính xác 100%, chủ yếu là vì nó chỉ cho phép những địa chỉ rõ ràng đi qua Điều này là một lợi thế lớn, nhưng cũng có ý bất lợi Bởi vì tất cả thư điện tử của người lạ đều bị loại bỏ nên các thư điện tử hợp lệ từ những người muốn liên lạc với một người dùng nào đó cũng sẽ bị loại bỏ [6] Người dùng đó không hề biết là có người đã cố gắng liên lạc với mình
Nhiều hệ thống whitelisting chỉ tạo danh sách whitelist dựa trên địa chỉ thư điện tử trong phần thông tin của trường “From:” Điều này giúp phần lớn người dùng dễ dàng thêm các địa chỉ thư điện tử những người bạn của họ vào danh sách whitelist Trường “From:” được xem là trường tin cậy, nhưng mà trong thực tế nó rất dễ bị giả mạo do bên nhận không chứng thực người gửi Khi kẻ phát tán thư rác giả mạo một địa chỉ trong whitelist của người dùng, nếu người nhận xóa địa chỉ đó khỏi whitelist thì các thư điện tử từ người thực
sự có địa chỉ đó sẽ bị khóa Ngược lại nếu giữ lại địa chỉ đó thì người nhận sẽ nhận được tất cả các thư rác từ người gửi giả mạo địa chỉ đó Không có giải pháp trung gian cho vấn đề này, whitelisting chỉ có thể làm việc hoặc không làm việc
Nhiều bộ lọc dựa trên nội dung sử dụng kỹ thuật whitelisting trước khi lọc
Trang 20Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
nội dung để tăng cường độ chính xác
1.2.2.2 Ưu – khuyết điểm
u điểm
Kết quả rất chính xác
Không phải dựa trên việc học nội dung thông điệp
Khuyết điểm
Có thể giả mạo địa chỉ trong danh sách whitelist
Tất cả người dùng phải được tin cậy mới có thể gửi email vào inbox được
Người dùng cần phải cấu hình danh sách whitelist một cách thủ công
1.2.2.3 Ghi chú
Phù hợp cho những người dùng cần độ chính xác cao mà không bận tâm đến rủi ro có thể mất các email mang lại cơ hội nghề nghiệp hay cơ hội kinh doanh
1.2.3 Kỹ thuật heuristic filtering
1.2.3.1 Giới thiệu
Phương pháp lọc mail Heuristic được phát triển vào cuối năm 1990 Phương pháp này sử dụng một tập các luật thông dụng nhằm nhận dạng tính chất của thư rác cụ thể nào đó Các tính chất này có thể nằm trong nội dung hoặc có được do quan sát cấu trúc cụ thể đặc thù của thư rác Không giống như các bộ lọc nguyên thủy, bộ lọc heuristic có các luật để phát hiện cả thư rác lẫn thư hợp lệ Các thông điệp chỉ có một ít đặc điểm là thư rác có thể được xem là thư hợp lệ nếu ta không thiết lập cảnh báo cho trường hợp này Heuristic filtering làm việc dựa trên hàng ngàn luật được định nghĩa trước [4] Mỗi luật đều được gán một điểm số để biết xác suất thông điệp có phải là
Trang 21Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thư rác không Kết quả cuối cùng của biểu thức gọi là SPAM Score SPAM score để đo mức độ của thư rác (thấp, trung bình hay cao) Thiết lập mức độ càng cao thì càng lọc được nhiều thư rác, tuy nhiên tỉ lệ false-positive cũng sẽ tăng do các thư điện tử hợp lệ bị coi là thư rác cũng nhiều hơn Dựa vào Spam Score và một ngưỡng xác định thì các thông điệp được phân lớp thành thư rác, thư hợp lệ và thư chưa xác định Tuy nhiên cũng có ngoại lệ cho luật này:
Các thông điệp từ người gửi trong whitelist không bao giờ bị coi là thư rác.
Các thông điệp từ người gửi trong blacklist luôn luôn bị coi là thư rác.
Heuristic filtering có hai điểm yếu nghiêm trọng làm giảm hiệu quả của nó:
Điểm yếu chính xuất phát từ lý do tập luật được thiết kế để mọi người sử dụng Do đó cần phải cắt giảm một số luật để tránh một số lỗi false-positive quan trọng (các thư thường bị coi là thư rác) Kết quả là, phiên bản đầu tiên của SpamAssasin (phần mềm mã nguồn
mở đầu tiên để lọc thư rác) có một tỉ lệ lỗi là 1/10 thông điệp, các phiên bản sau này cải thiện chỉ còn 1/20 thông điệp, đạt độ chính xác khoảng 95%
các luật, cho nên kẻ phát tán thư rác có thể học và thích nghi với các luật để vượt qua bộ lọc [6] Kết quả là độ chính xác giảm nghiêm trọng, một vài nhà quản trị hệ thống cho biết trong một số trường hợp nó có thể giảm xuống 40% [6] Độ chính xác sẽ tăng khi tác giả bộ lọc thêm các luật mới nhưng cũng sẽ nhanh chóng giảm khi những kẻ phát tán thư rác thích nghi với các luật này
Trang 22Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1.2.3.2 Ưu – khuyết điểm
u điểm
Độ chính xác cao hơn các phương pháp lọc thô sơ
Chúng ta có thể dễ dàng phân phối các tập luật
Khuyết điểm
Các tập luật cần được duy trì thường xuyên
Độ chính xác không tốt bằng các bộ lọc thống kê mới hơn
Những kẻ phát tán thư rác có thể sử dụng các tập luật để qua mặt bộ lọc
1.2.4.2 Ưu – khuyết điểm
u điểm
Rất chính xác.
Trang 23Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Không dựa trên việc học nội dung của thông điệp.
Khuyết điểm
Làm việc gửi thư điện tử bị chậm lại
Phía người gửi cần phải xác thực địa chỉ của mình một cách thủ công
Khiến cho nhiều người không muốn gửi thư điện tử tới chúng ta
Đường truyền chịu tải cao do lượng thư điện tử phát sinh lớn
Có thể bị giả mạo địa chỉ
1.2.4.3 Ghi chú
Phù hợp cho người dùng muốn người gửi phải được xác thực trước khi giao tiếp và không quan tâm tới việc có thể mất các thư điện tử mang đến cơ hội nghề nghiệp hay những người dùng muốn giới hạn số lượng người họ muốn giao tiếp
1.2.5 Phân tích và định hướng phát triển ứng dụng thử nghiệm
Trang 24Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Challenge/
Qua bảng thống kê 1.1 và các kỹ thuật chống thư rác được giới thiệu ở trên, chúng ta đều thấy được ưu điểm và khuyết điểm của từng kỹ thuật Đa số các kỹ thuật chống thư rác trên đều lọc dựa vào phần header của thư hoặc ngăn chặn ngay từ kẻ phát tán thư rác (blacklist, whitelist) mà ít quan tâm đến phần nội dung của thư
Các kỹ thuật giới thiệu trên ngoại trừ kỹ thuật sử dụng máy học không có quá trình huấn luyện để “học” sự thay đổi của thư rác theo thời gian, chính vì thế khiến cho thư rác vượt qua các bộ lọc sử dụng các kỹ thuật trên khá lớn Trong các kỹ thuật đã giới thiệu, kỹ thuật heuristic là có thể “học” sự thay đổi của thư rác nhưng phải do nhà quản trị mạng liên tục cập nhật các luật giúp cho bộ lọc nhận ra loại thư rác mới Tuy nhiên điều này làm tăng số lượng công việc mà nhà quản trị mạng phải thực hiện
Một quá trình mà một chương trình máy tính cải thiện hiệu suất của
nó trong một công việc thông qua kinh nghiệm [Mitchell, 1997].
Việc lập trình các máy tính để tối ưu hóa một tiêu chí hiệu suất dựa trên các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [Alpaydin,
Trang 25Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2004].
Phương pháp biểu diễn một bài toán học máy như sau: [Mitchell, 1997]
Học máy = cải thiện hiệu quả một công việc thông qua kinh nghiệm
Một công việc (nhiệm vụ) T
Đối với các tiêu chí đánh giá hiệu năng P
Thông qua (sử dụng) kinh nghiệm E
Bài toán học máy lọc thư rác (Email SPAM filtering)
T : Dự đoán (để lọc) những thư điện tử nào là thư rác (SPAM email).
P : % của các thư điện tử gửi đến được phân loại chính xác.
E : Một tập các thư điện tử (emails) mẫu, mỗi thư điện tử được biểu diễn bằng một tập thuộc tính (ví dụ: tập từ khóa) và nhãn lớp (thư thường/thư rác) tương ứng
Khuyết điểm
Phải mất một khoảng thời gian đầu huấn luyện cho bộ lọc.
1.3.1 Support vector Machine (SVM)
Một kỹ thuật học máy có hiệu quả trong việc giải quyết phân loại và xấp xỉ là máy vector hỗ trợ (SVMs) (Cortes và Vapnik, 1995; Osuna et al, 1997; Burges, 1998; Cristianini và Shawe-Taylor, 2000; Huang et al 2006)
Mô hình SVM được Drucker et al (1999) áp dụng đầu tiên cho lọc thư rác
Trang 26Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Một máy vector hỗ trợ thực hiện phân loại e-mail bằng cách lập bản đồ phi tuyến của tập dữ liệu huấn luyện thành một không gian đặc trưng đa chiều Sau đó, xây dựng một siêu phẳng (ranh giới quyết định) N-chiều để tách bộ
dữ liệu thành hai cụm spam và ham
Hình 1.2 Mô hình SVM
Hình trên cho thấy một bộ dữ liệu tuyến tính được tách biệt trong một không gian 2-dimesional với hai cách khác nhau để phân biệt chúng Chất lượng của siêu phẳng này được quyết định bởi một khoảng cách (được gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến đường thẳng này Khoảng cách biên càng lớn thì sự phân chia các điểm ra thành hai lớp càng tốt, nghĩa
là sẽ đạt được kết quả phân loại tốt Mục tiêu của thuật toán SVM là tìm được khoảng cách biên lớn nhất để tạo kết quả phân loại tốt
Hình 1.3 Siêu phẳng h phân chia dữ liệu
Phương trình siêu phẳng chứa vector di trong không gian như sau:
Trang 27Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Như thế vector h(di) biểu diễn sự phân lớp của vector di vào hai lớp Gọi Yi= h(di) mang giá trị +1 hoặc -1, khi đó Yi = +1 văn bản tương ứng với vector di
thuộc lớp + và ngược lại nó sẽ thuộc vào lớp - Khi này để có siêu mặt phẳng
h ta sẽ giải bài toán sau:
Tìm Min với và b thỏa mãn điều kiện:
Chúng ta thấy rằng SVM là mặt phẳng quyết định chỉ phụ thuộc vào các vector hỗ trợ có khoảng cách đến mặt phẳng quyết định là 1/wi Khi các điểm khác bị xóa đi thì thuật toán vẫn cho kết quả giống như ban đầu Chính đặc điểm này làm cho SVM khác với các thuật toán khác như kNN, Nnet, NB vì tất cả dữ liệu trong tập huấn luyện đều được dùng để tối ưu hóa kết quả
1.3.2 K–Nearest Neighbor (kNN)
kNN là phương pháp truyền thống khá nổi tiếng theo hướng tiếp cận thống kê đã được nghiên cứu trong nhiều năm qua kNN được đánh giá là một trong những phương pháp tốt nhất được sử dụng từ những thời kỳ đầu trong nghiên cứu về phân loại văn bản
Ý tưởng của phương pháp này đó là khi cần phân loại một văn bản mới, thuật toán sẽ xác định khoảng cách (có thể áp dụng các công thức về khoảng cách như Euclide, Cosine, Manhattan,…) của tất cả các văn bản trong tập huấn luyện đến văn bản này để tìm ra k văn bản gần nhất, gọi là k nearest neighbor – k láng giềng gần nhất, sau đó dùng các khoảng cách này đánh
Trang 28Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
trọng số cho tất cả các chủ đề Khi đó, trọng số của một chủ đề chính là tổng tất cả các khoảng cách ở trên của các văn bản trong k láng giềng có cùng chủ
đề, chủ đề nào không xuất hiện trong k láng giềng sẽ có trọng số bằng 0 Sau
đó các chủ đề sẽ được sắp xếp theo giá trị trọng số giảm dần và các chủ đề có trọng số cao sẽ được chọn làm chủ đề của văn bản cần phân loại
Trọng số của chủ đề cj đối với văn bản x được tính như sau:
Trong đó:
y (di, c) thuộc {0,1}, với:
+ y = 0 : văn bản di không thuộc về chủ đề cj
+ y = 1 : văn bản di thuộc về chủ đề cj
sim (x , d) : độ giống nhau giữa văn bản cần phân loại x và văn bản d
Chúng ta có thể sử dụng độ đo cosine để tính khoảng cách:
- bj là ngưỡng phân loại của chủ đề cj được tự động học sử dụng một tập văn bản hợp lệ được chọn ra từ tập huấn luyện
Để chọn được tham số k tốt nhất cho thao tác phân loại, thuật toán cần được chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật toán càng ổn định và sai sót càng thấp
Trang 29Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đặc trưng X 1 , X 2 ,…, X n Mỗi đặc trưng có thể là một từ hoặc một cụm từ Ở
đây, n là số lượng đặc trưng được xác định từ toàn bộ tập dữ liệu huấn luyện,
tức là số lượng từ/cụm từ khác nhau trong tập dữ liệu huấn luyện Mỗi thư
được gán một nhãn phân loại Y có thể nhận một trong hai giá trị: Y = 1 cho trường hợp thư rác và Y = 0 cho trường hợp thư bình thường
Để xác định nhãn phân loại cho thư, bộ phân loại Bayes tính xác suất điều kiện
P (Y = y | X1 = x1,…, X n = x n)
Tức là xác suất một thư với nội dung (x1, x2, …, xn) nhận nhãn phân loại
y, y {1,0} Sử dụng công thức Bayes, xác suất trên được tính như sau:
) , ,
(
) ( )
| , ,
( ) , ,
| (
1 1
1 1 1
1
n n
n n n
n
x X x X P
y Y P y Y x X x X P x X x X y
Trong công thức (1), giá trị mẫu số không phụ thuộc vào nhãn phân loại
và do vậy có thể bỏ qua Nhãn phân loại Y là nhãn tương ứng với giá trị lớn
nhất của tử số Cụ thể, trong trường hợp phân loại thư rác, nhãn của thư được xác định bằng cách tính giá trị biểu thức:
) 0 ( ) 0
| , ,
(
) 1 ( ) 1
| , ,
( ) , ,
| 0
(
) , ,
| 1
(
1 1
1 1 1
1
1 1
x X x X P
Y P Y
x X x X P x X x X Y
P
x X x X Y
P
n n
n n
n n
n n
(2)
Giá trị biểu thức (2) lớn hơn 1 có nghĩa xác suất thư là thư rác lớn hơn xác suất thư bình thường và thư sẽ được gán nhãn thư rác Giá trị biểu thức (2) nhỏ hơn 1 cho kết quả ngược lại Tuy nhiên, đối với bài toán lọc thư, lỗi phân loại thư rác thành thư thường dễ chấp nhận hơn nhiều so với phân loại nhầm thư thường thành thư rác Do vậy, không thể chỉ đơn thuần gán cho thư nhãn có xác suất điều kiện lớn hơn Giả sử việc phân loại thư rác thành thư
thường dễ chấp nhận hơn phân loại thư thường thành thư rác T lần, theo lý
Trang 30Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thuyết phân loại Bayes tối ưu trình bày trong [Duda &Hard], thư sẽ được phân loại là rác nếu
T Y
P Y
x X x X P
Y P Y
x X x X P
n n
| , ,
(
) 1 ( ) 1
| , ,
(
1 1
1 1
cách tính giá trị P ( X
= x
| Y = y) khác nhau tương ứng với các phiên bản khác
nhau của phương pháp phân loại văn bản sử dụng Bayes đơn giản
1.3.4 Mạng Neural (Nnet)
Nnet được nghiên cứu mạnh trong hướng trí tuệ nhân tạo Wiener là người đã sử dụng Nnet để phân loại văn bản, sử dụng 2 hướng tiếp cận: kiến trúc phẳng (không sử dụng lớp ẩn) và mạng nơron 3 lớp (bao gồm một lớp ẩn) [Wiener et al, 1995]
Cả hai hệ thống trên đều sử dụng một mạng nơron riêng rẽ cho từng chủ đề, NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mô hình vector của một văn bản vào một chủ đề cụ thể
Khuyết điểm của phương pháp NNet là tiêu tốn nhiều thời gian dành cho việc huấn luyện mạng nơron
Ý tưởng của phương pháp này là mô hình mạng neural gồm có ba thành phần chính như sau: kiến trúc (architecture), hàm chi phí (cost function), và thuật toán tìm kiếm (search algorithm) Kiến trúc định nghĩa dạng chức năng
Trang 31Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
(functional form) liên quan giá trị nhập (inputs) đến giá trị xuất (outputs) Kiến trúc phẳng (flat architecture): Mạng phân loại đơn giản nhất (còn gọi là mạng logic) có một đơn vị xuất là kích hoạt kết quả (logistic activation) và không có lớp ẩn, kết quả trả về ở dạng hàm (functional form) tương đương với mô hình hồi quy logic Thuật toán tìm kiếm chia nhỏ mô hình mạng để thích hợp với việc điều chỉnh mô hình ứng với tập huấn luyện
Kiến trúc mô đun (modular architecture): Việc sử dụng một hay nhiều lớp
ẩn của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệ giữa những biến nhập và biến xuất Mỗi lớp ẩn học để biểu diễn lại
dữ liệu đầu vào bằng cách khám phá ra những đặc trưng ở mức cao hơn từ sự kết hợp đặc trưng ở mức trước Trong công trình của Wiener et al (1995) dựa theo khung của mô hình hồi quy, liên quan từ đặc trưng đầu vào cho đến kết quả gán chủ đề tương ứng được học từ tập dữ liệu Do vậy, để phân tích một cách tuyến tính, tác giả dùng hàm sigmoid sau làm hàm truyền trong mạng neural:
Trong đó là sự kết hợp của những đặc trưng đầu vào và p phải thỏa
Trang 32Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 2
HỆ MIỄN DỊCH NHÂN TẠO
Hệ miễn dịch nhân tạo là một lĩnh vực nghiên cứu phong phú và chín muồi, nó kết hợp các nguyên lý miễn dịch học và tính toán Nhiều nhà nghiên cứu quan tâm đến áp dụng các nguyên lý miễn dịch học cho an ninh máy tính,
an ninh mạng, giải các bài toán tối ưu Thuật toán chọn lọc âm tính là một trong những mô hình tính toán về phát hiện self/nonself có thể được dùng cho phát hiện bất thường Nó bao gồm hai giai đoạn: sinh một tập D các bộ dò mà không khớp được với bất kỳ phần tử nào của một tập self cho trước S Sau đó,
sử dụng những bộ dò này để phân biệt một tế bào cho trước là self hay nonself Hiệu suất của thuật toán chọn lọc âm tính phụ thuộc vào tính hiệu quả của cả hai giai đoạn sinh và phát hiện Các khái niệm và thuật toán trong chương này có thể tìm thấy trong [1], [2], [5], [7], [9], [11]
Trang 33Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.1.1.2 Các tầng bảo vệ của hệ miễn dịch
+ Mức sinh hóa (Biochemical Barriers): Các chất lưu như nước bọt, mồ hôi, nước mắt chứa những enzym có thể loại bỏ kháng nguyên Các axit trong vùng da cùng với nhiệt độ của cơ thể cũng ngăn cản sự sống và kháng sinh của kháng nguyên
+ Mức HMD thích nghi và HMD bẩm sinh:
Trang 34Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- HMD bẩm sinh: Hoạt động dựa vào bạch cầu huyết là đại thực bào và bạch cầu trung tính (có chức năng nuốt và tiêu diệt các vi trùng, tạo ra một cơ chế bảo vệ quan trọng chống lại các bệnh truyền nhiễm) Những bạch huyết này có các cơ quan thụ cảm trên bề mặt, chúng có thể nhận diện và bám vào các phần tử gây bệnh
Với những vi khuẩn thông thường, HMD bẩm sinh có thể nhận diện và loại bỏ
HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinh đối với các vi sinh vật xâm nhập vào cơ thể lần thứ hai không có gì khác
so với lần thứ nhất
- HMD thích nghi: hoạt động với các thành phần chính là các lymphô bào (Lymphocyte – là một loại bạch cầu) bao gồm B-cell và T-cell Các B-cell và T-cell trên bề mặt của chúng có những cơ quan thụ cảm chuyên dụng cho một loại kháng thể nào đó Khi kháng nguyên xâm nhập vào cơ thể các cơ quan thụ cảm trên bề mặt của lymphô bào sẽ kết hợp với kháng nguyên làm cho các lymphô bào này được kích hoạt và thực hiện quá trình nhân rộng, đột biến sau đó tạo ra những kháng thể thích hợp có khả năng nhận diện và loại ổ kháng nguyên Một số lymphô bào sẽ trở thành tế bào có khả năng ghi nhớ lưu thông trong cơ thể Khi có loại kháng nguyên tương tự lây nhiễm, thì HMD thích nghi có thể nhanh chóng phát hiện và loại bỏ chúng Khả năng này giúp cho cơ thể không mắc lại những bệnh cũ, do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoàn thiện sau mỗi lần đụng độ với kháng nguyên
Trang 35Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2.2 Một số cơ quan của hệ miễn dịch sinh học
HMD nhân tạo được trình bày ở phần sau chỉ mô phỏng cơ chế miễn dịch sinh học của HMD thích nghi
2.1.1.3 Phân biệt self và nonself
Trong quá trình chọn lọc các tế bào B-cell và T-cell, HMD thích nghi không chỉ phải chọn những tế bào có khả năng nhận biết những tế bào lạ (antigen hay nonself), mà nó còn phải loại bỏ những tế bào nhận biết được những tế bào do cơ thể tạo ra (self - antigen hay đơn giản là self) Tương ứng với hai quá trình này ta có quá trình chọn lọc tích cực và quá trình chọn lọc tiêu cực Hai quá trình này xảy ra với cả B-cell và T-cell với nguyên lý khá giống nhau Khi xây dựng thuật toán, chúng ta chỉ cần xét với T-cell [5]
+ Phép chọn lọc tích cực
Phép chọn lọc tích cực đối với các Lymphô bào (T-cell và B-cell) nhằm mục đích tránh sự xuất hiện của các Lymphô bào không có ích Những Lymphô bào mà cơ quan thụ cảm của chúng không có khả năng nhận diện
Trang 36Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
được kháng nguyên Kết quả cuối cùng là những Lymphô bào có khả năng nhận diện được kháng nguyên [5]
+ Phép chọn lọc tiêu cực
Phép chọn lọc tiêu cực của các lymphô bào nhằm mục đích loại bỏ những lymphô bào mà cơ quan thụ cảm của nó nhận diện được các tế bào do
cơ thể tạo ra và nó có thể tiêu diệt những tế bào này
2.1.2 Hệ miễn dịch nhân tạo
2.1.2.1 Khái niệm hệ miễn dịch nhân tạo
HMD nhân tạo là một hệ thống thích nghi lấy ý tưởng của miễn dịch học và những chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụng giải các bài toán thực tế [5]
2.1.2.2 Mô hình hệ miễn dịch nhân tạo
Lời giải
Lĩnh vực ứng dụng
Hình 2.3 Cấu trúc phân tầng của HMD nhân tạo
- Tầng đầu tiên là lĩnh vực ứng dụng, đây là điểm cơ bản của mọi hệ thống không chỉ với HMD nhân tạo Đối với lĩnh vực ứng dụng khác nhau sẽ
Các thuật toán miễn dịch
Các phương pháp đánh giá độ thích hợp Biểu diễn các thành phần
AIS
Trang 37Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
quyết định những thành phần và cách thức biểu diễn khác nhau và dẫn tới các thao tác trên các thành phần cũng khác nhau
- Tầng thứ hai là biểu diễn các thành phần: Trong HMD nhân tạo phải biểu diễn được hai thành phần quan trọng là kháng thể và kháng nguyên
- Tầng thứ ba là các phương pháp đánh giá độ thích hợp: Để đánh giá
độ thích hợp có thể sử dụng nhiều phương pháp khác nhau như khoảng cách Hamming, khoảng cách Euclid, hoặc khoảng cách Mahattan
- Tầng thứ tư là sử dụng các thuật toán miễn dịch: Có thể dùng các thuật toán miễn dịch như thuật toán chọn lọc tích cực, NSA, thuật toán clôn, thuật toán aiNet, thuật toán RAIN để điều chỉnh tính động của hệ HMD nhân tạo
- Tầng thứ năm là đưa ra lời giải thích cho bài toán: Lời giải cho bài toán sẽ được cập nhật lại sau khi một quần thể mới được tạo và đưa ra kết quả cuối cùng khi đạt đến điều kiện kết thúc nào đó ví dụ như sau một số bước lặp nhất định [3]
2.1.2.3 Thuật toán chọn lọc tích cực và tiêu cực
+ Thuật toán chọn lọc tích cực (Positive Selection Algorithms)
Ý tưởng của thuật toán khá đơn giản, đó là chọn lọc những T-cell có thể nhận diện các peptide (một phần của kháng nguyên xâm nhập vào cơ thể),
mà peptide này đã kết hợp với MHC (Major Histocompatibility Complex - phức hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell) để tạo thành MHC/peptide Giả thiết có tập MHC/peptide, kí hiệu là tập
S, các cơ quan thụ cảm T-cell sẽ phải được kiểm tra về khả năng kết hợp với các phần tử thuộc tập S này Nếu một T-cell không nhận diện được bất kỳ phần tử nào, nó sẽ bị loại bỏ Trái lại, nó được chọn như một tế bào có khả năng miễn dịch và bổ sung vào quần thể có giá trị A
Trang 38Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Cho vào quần thể có giá trị A
Bước 2 Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả phần
tử trong quần thể P với tất cả phần tử trong tập Self S
Bước 3 Tạo một quần thể có giá trị: Nếu độ thích hợp của một phần tử trong P với một phần tử trong S lớn hơn hoặc bằng một ngưỡng tương tác chéo nào đó thì T-cell có khả năng nhận diện kháng nguyên, sẽ được chọn vào quần thể có giá trị A trái lại T-cell bị loại bỏ
Hình 2.4 Sơ đồ khối thuật toán chọn lọc tích cực
+ Thuật toán chọn lọc tiêu cực (Negative Selection Algorithms-NSA)
Trang 39Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
NSA của Forrest và các đồng nghiệp khá đơn giản [5]: Giả sử đã có một tập Self-Peptide để tạo thành phức chất MHC-Self peptide, các cơ quan thụ cảm T-cell nếu nhận diện được một self-peptide thì sẽ bị loại bỏ, trái lại nó sẽ được chọn như một tế bào có khả năng miễn dịch và bổ sung vào quần thể có giá trị A Thuật toán chọn lọc tiêu cực được minh họa trong hình 2.5 có thể được tóm tắt như sau:
Bước 1 Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưa trưởng thành Giả thiết tất cả các phần tử (các cơ quan thụ cảm và các self-peptide) được biểu diễn bằng một xâu nhị phân ℓ bit
Bước 2 Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả T-cell trong P với mọi phần tử của tập Self S
Bước 3 Tạo một quần thể có giá trị: Nếu độ thích hợp của một T-cell chưa trưởng thành với ít nhất một phần tử self-peptide lớn hơn hoặc bằng một ngưỡng tương tác chéo nào đó, thì T- cell nhận diện được self-peptide này và
bị loại bỏ, trái lại T- cell được bổ sung vào quần thể có giá trị A
S
Loại bỏ Quần thể
tiềm năng P
p P nhận diện được s S
Cho vào quần thể có giá trị A Sai
Đúng
Trang 40Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2.5 Sơ đồ khối thuật toán chọn lọc tiêu cực
2.1.2.4 Sự tương quan giữa hệ miễn dịch với môi trường mạng
Bảng 2.1 Sự tương quan giữa hệ miễn dịch với môi trường mạng
Da và HMD bẩm sinh Mật khẩu, quyền truy cập file, truy cập
nhóm người dùng,…
tiến trình khác để phát hiện bất thường
được hiểu theo nghĩa thông thường là tập tất cả các xâu kí tự độ dài k xây dựng từ tập kí tự Σ