1. Trang chủ
  2. » Thể loại khác

Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác

80 340 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 908,3 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC CÁC HÌNH VẼ Hình 1.1: So sánh thư rác với các thư điện tử khác.. Số hĩa bởi Trung tâm Học liệu – ĐHTN http://www.

Trang 1

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 2

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 3

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này của tự bản thân tôi tìm hiểu, nghiên cứu dưới sự hướng dẫn của TS Vũ Mạnh Xuân Các chương trình thực nghiệm do chính bản thân tôi lập trình, các kết quả là hoàn toàn trung thực Các tài liệu tham khảo được trích dẫn và chú thích đầy đủ

TÁC GIẢ LUẬN VĂN

Phùng Thị Thu Trang

Trang 4

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

LỜI CẢM ƠN

Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể các thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam, các thầy cô giáo Trường Đại học Công nghệ thông tin và truyền thông - Đại học Thái Nguyên đã dạy dỗ chúng tôi trong suốt quá trình học tập chương trình cao học tại trường

Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Vũ Mạnh Xuân đã quan tâm, định hướng và đưa ra những góp ý, gợi ý, chỉnh sửa quý báu cho tôi trong quá trình làm luận văn tốt nghiệp Cũng như các bạn bè, đồng nghiệp, gia đình và người thân đã quan tâm, giúp đỡ và chia sẻ với tôi trong suốt quá trình làm luận văn tốt nghiệp

Dù đã có nhiều cố gắng nhưng chắc chắn sẽ không tránh khỏi những thiếu sót vì vậy rất mong nhận được sự đóng góp ý kiến của các thầy, cô và các bạn để luận văn này được hoàn thiện hơn

Tôi xin chân thành cảm ơn!

Thái Nguyên, tháng 08 năm 2015

Phùng Thị Thu Trang

Trang 5

Số hĩa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

MỤC LỤC

DANH MỤC CÁC HÌNH VẼ vi

DANH MỤC CÁC BẢNG vii

MỞ ĐẦU 8

Chương 1 NGHI N C U T NG QUAN VỀ TH RÁC 3

1.1 Giới thiệu về thư rác 3

1.1.1 Lịch sử 3

1.1.2 Định nghĩa 4

1.1.3 Mục đích chính gửi thư rác 5

1.1.4 Các đặc tính của thư rác 6

1.1.5 Các kỹ thuật tạo thư rác 7

1.2 Các kỹ thuật phát hiện và ngăn chặn thư rác 8

1.2.1 Kỹ thuật blacklisting 8

1.2.2 Kỹ thuật whitelisting 9

1.2.3 Kỹ thuật heuristic filtering 11

1.2.4 Kỹ thuật challenge/ response 13

1.2.5 Phân tích và định hướng phát triển ứng dụng thử nghiệm 14

1.3 Kỹ thuật dùng học máy 15

1.3.1 Support vector Machine (SVM) 16

1.3.2 K–Nearest Neighbor (kNN) 18

1.3.3 Nạve Bayes (NB) 19

1.3.4 Mạng Neural (Nnet) 21

Chương 2 HỆ MIỄN DỊCH NHÂN TẠO 23

2.1 Hệ miễn dịch 23

2.1.1 Hệ miễn dịch sinh học 23

2.1.2 Hệ miễn dịch nhân tạo 27

2.2 Một số định nghĩa 31

2.2.1 Self 32

2.2.2 NonSelf 32

2.2.3 Bộ dị 32

2.2.4 Tập bộ dị ChunkD(S, r) và ContD(S, r) 32

2.2.5 Khả năng phát hiện của tập bộ dị 33

Trang 6

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.2.6 Hole 34

2.3 Thuật toán sinh tập bộ dò r-chunk 34

2.3.1 Thuật toán 35

2.3.2 Độ phức tạp thuật toán 36

2.4 Thuật toán sinh tập bộ dò dạng r – contiguous 38

2.4.1 Thuật toán 38

2.4.2 Độ phức tạp thuật toán 39

2.5 Các nghiên cứu gần đây 42

Chương 3 CÀI ĐẶT THỬ NGHIỆM 44

3.1 ng dụng hệ miễn dịch nhân tạo trong lọc thư rác 44

3.1.1 Phát biểu bài toán 44

3.1.2 Cơ sở dữ liệu TREC'07 45

3.1.3 Thiết kế phần mềm 46

3.1.4.Phân tích thuật toán 47

3.1.5 Giao diện chương trình và kết quả 48

3.1.6 Đánh giá 51

3.2 So sánh với các thuật toán trên WEKA 51

3.2.1 Phát biểu bài toán 51

3.2.2 Cơ sở dữ liệu SpamBase 52

3.2.3 Phần mềm WEKA 54

3.2.4 Thiết kế phần mềm 57

3.2.5 Phân tích thuật toán 58

3.2.6 Giao diện chương trình và kết quả 61

3.2.7 Đánh giá 65

KẾT LUẬN 67

DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ 69

TÀI LIỆU THAM KHẢO 70

Trang 7

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT Viết tắt Viết đầy đủ

Trang 8

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: So sánh thư rác với các thư điện tử khác 5

Hình 1.2 Mô hình SVM 17

Hình 1.3 Siêu phẳng h phân chia dữ liệu 17

Hình 2.1 Các tầng miễn dịch sinh học 24

Hình 2.2 Một số cơ quan của hệ miễn dịch sinh học 26

Hình 2.3 Cấu trúc phân tầng của HMD nhân tạo 27

Hình 2.4 Sơ đồ khối thuật toán chọn lọc tích cực 29

Hình 2.5 Sơ đồ khối thuật toán chọn lọc tiêu cực 31

Hình 3.1 Giao diện chương trình lọc spam trên bộ CSDL TREC'07 49

Hình 3.2 Kết quả quá trình test 50

Hình 3.3 Giao diện phần mềm Weka 55

Hình 3.4 Giao diện Weka Explorer 55

Hình 3.5 Giao diện Weka Explorer sau khi chọn CSDL Spambase 56

Hình 3.6 Phân loại dữ liệu 57

Hình 3.7 Giao diện chương trình 61

Trang 9

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

DANH MỤC CÁC BẢNG

Bảng 1.1 Các phần mềm chống thư rác 14

Bảng 2.1 Sự tương quan giữa hệ miễn dịch với môi trường mạng 31

Bảng 3.1 Kết quả khi chạy chương trình với 9 bộ test 50

Bảng 3.2 So sánh kết quả 51

Bảng 3.3 Kết quả thử nghiệm trên WEKA và NSA 63

Bảng 3.4 So sánh NSA với một số phương pháp cho kết quả tốt hơn 63

Bảng 3.5 So sánh NSA với một số phương pháp cho kết quả thấp hơn 64

Bảng 3.6 Kết quả so khớp với giá trị tham số r thay đổi 65

Trang 10

Số hĩa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Cĩ nhiều kỹ thuật lọc thư rác khác nhau như: Blacklisting, Whitelisting, Heuristic filtering, Challenge/ Response, Throttling, Address obfuscation, Collaborative filtering,…Tuy nhiên, đa số các phần mềm chống thư rác là dựa trên header của thư hoặc địa chỉ từ người gửi nhằm tăng tốc độ Các phương pháp học máy gần đây được quan tâm nhiều vì chúng cĩ khả năng thích nghi cao với sự tiến hĩa của thư rác như phương pháp dựa trên xác suất Nạve Bayes, phương pháp học máy vectơ hỗ trợ (Support vector machine), phương pháp phân loại dựa trên láng giềng gần nhất (k-nearest neighbors)

Hệ miễn dịch nhân tạo là một hệ thống thích nghi lấy ý tưởng của học thuyết miễn dịch và những chức năng, nguyên tắc, mơ hình miễn dịch quan sát được, áp dụng giải các bài tốn thực tế Nĩ cĩ nhiều ứng dụng khác nhau, nhưng chủ yếu được áp dụng vào lĩnh vực an ninh mạng và an ninh máy tính Với lý do trên, đề tài “Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác” tập trung nghiên cứu về hệ miễn dịch nhân tạo và ứng dụng một số kỹ thuật cải tiến thuật tốn miễn dịch áp dụng cho bài tốn lọc thư rác để cĩ thể

áp dụng cho khơng gian dữ liệu lớn

Đối tƣợng và phạm vi nghiên cứu

- Nghiên cứu lý thuyết về hệ miễn dịch sinh học và hệ miễn dịch nhân tạo

Trang 11

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- ng dụng hệ miễn dịch nhân tạo vào quá trình lọc thư rác

- Đánh giá hiệu suất của phương pháp đề xuất với một số cách tiếp cận học máy khác như Naive Bayes, Support Vector Machine, …

Nội dung chính của đề tài

- Tìm hiểu, đánh giá ưu nhược điểm của một số phương pháp lọc thư rác

- Nghiên cứu ứng dụng hệ miễn dịch nhân tạo trong quá trình huấn luyện

dữ liệu và lọc thư rác

- Lập trình thử nghiệm lọc thư rác ứng dụng Hệ miễn dịch nhân tạo

- So sánh phương pháp sử dụng hệ miễn dịch nhân tạo với một số phương pháp khác

Kết quả chính của đề tài đã được nhóm tác giả công bố trong một bài báo đăng trên tạp chí Khoa học và Công nghệ của Đại học Thái nguyên (số 135 (05), 2015, trang 185)

Trang 12

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Chương 1 NGHI N CỨU T NG QUAN VỀ THƯ RÁC

Một trong những dịch vụ mà Internet mang lại đó là dịch vụ thư điện tử, đây là phương tiện giao tiếp rất đơn giản, tiện lợi, rẻ và hiệu quả giữa mọi người Tuy nhiên chính vì những lợi ích của dịch vụ thư điện tử mang lại mà

số lượng thư trao đổi trên Internet ngày càng tăng, và hầu hết trong số những thư đó là thư rác (email spam) Thư rác thường được gửi với số lượng rất lớn, không được người dùng mong đợi, với nhiều mục đích khác nhau như: quảng cáo, đính kèm virus, gây phiền toái khó chịu cho người dùng, làm giảm tốc độ truyền internet và tốc độ xử lý của email server, gây thiệt hại rất lớn về kinh

tế Chương này sẽ khái quát các vấn đề về thư rác, ảnh hưởng của thư rác trong cuộc sống và các phương pháp ngăn chặn thư rác Các khái niệm và kết quả trong chương này được tham khảo trong [1], [2], [3], [4], [6], [8]

1.1 Giới thiệu về thư rác

1.1.1 Lịch sử

Có thể chia lịch sử của thư rác thành 3 giai đoạn sau:

1.1.1.1 Giai đoạn thứ nhất – những năm đầu của thư rác

Nhiều ý kiến cho rằng thư rác đầu tiên được phát tán trên mạng diện rộng

là vào năm 1978, đó là một quảng cáo từ Digital Equipment Corporation (DEC) Do dịch vụ thư điện tử lúc này chưa phát triển nên người phát tán thư rác (spammer) này phải đánh thủ công các địa chỉ thư điện tử muốn gửi và chỉ

có khoảng 320 trong tổng số các địa chỉ thư điện tử mà spammer muốn gửi nhận được thư rác này trong lần phát tán đầu tiên Vào 1988 xuất hiện kiểu

Trang 13

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

thư rác khác là thư rác lừa đảo (như lừa đảo làm việc từ thiện, lừa đảo về kiếm tiền)

1.1.1.2 Giai đoạn thứ hai – thư rác được gửi thông qua phần mềm

Đầu thập niên 1990, với sự phát triển của Internet mang đến vấn nạn là số lượng thư rác tăng lên nhanh chóng Lúc này các spammer dùng các phần mềm để tự động việc gửi thư điện tử đến một danh sách các địa chỉ Ví dụ về thư rác phát tán qua các phần mềm tự động là thư rác Jesus và thư rác Cantel

và Siegel

Vào 1995 Jeff Slaton – tự nhận mình là “vua thư rác”, ông là một trong những người đầu tiên kiếm lợi nhuận từ các thư rác mà ông gửi đi, ông còn ép buộc các nạn nhân của mình trả phí nếu không muốn nhận thư rác Việc làm của ông tạo ra ý tưởng cho các công ty thương mại là thuê những người như Jeff Slaton để phát tán thư điện tử với mục đích là quảng cáo giúp họ

1.1.1.3 Giai đoạn thứ ba – phần mềm chống thư rác chống lại các phần mềm gửi thư rác

Vào 1996 xuất hiện các phần mềm chống thư rác đầu tiên như: Spamblock, Internet Death Penalty, tuy nhiên vẫn không làm giảm sự phát triển của thư rác Các địa chỉ thư điện tử của người dùng được rao bán cho các công ty, tổ chức muốn thực hiện quảng cáo trên thư điện tử Và từ 1997 đến nay sự phát triển của thư rác đã vượt quá sự kiểm soát, một thống kê cho thấy 97% tổng số thư điện tử được gửi trên mạng là các thư không mong muốn nhận từ người dùng [8]

1.1.2 Định nghĩa

Có nhiều tranh cãi về việc đâu là định nghĩa chính xác của thư rác (email SPAM), bởi vì thư rác mang tính cá nhân hóa nên khó mà nói lên được hết ý nghĩa của thư rác Nhiều ý kiến cho rằng thư rác là những “thư điện tử (email)

Trang 14

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

không mong muốn” Định nghĩa này cũng không thực sự chính xác, như một nhân viên nhận những thư điện tử về công việc từ sếp của họ, đây là những thư điện tử người nhân viên không mong muốn nhưng chúng không phải là thư rác Lại có ý kiến khác cho rằng thư rác là những “thư điện tử thương mại không được yêu cầu từ phía người nhận” - những thư này bao gồm các thư điện tử quảng cáo về các sản phẩm và thư điện tử lừa gạt Nhưng định nghĩa này cũng không thực sự chính xác, nó làm mọi người nghĩ rằng thư rác giống như là thư đáng bỏ đi (junk mail)

Sau đó có ý kiến cho rằng thư rác là “số lượng lớn thư điện tử không yêu cầu” và trong số đó các thư điện tử quảng cáo, thương mại chiếm đa số, đây

có lẽ là định nghĩa gần đúng với ý nghĩa của thư rác nhất [6]

Hình vẽ sau sẽ thể hiện rõ định nghĩa của thư rác:

Tất cả thư điện tử Thư điện tử không mong muốn Thư rác

Thư quảng cáo thương mại

Hình 1.1: So sánh thƣ rác với các thƣ điện tử khác

1.1.3 Mục đích chính gửi thư rác

Thư rác được gửi với các mục đích chính như sau:

- Quảng cáo sản phẩm, dịch vụ, … của tổ chức, công ty thương mại nào

Trang 15

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

cắp các thông tin quan trọng của nạn nhân và hệ thống

- Nói xấu, xuyên tạc ai đó, tuyên truyền những điều sai trái về chính trị

1.1.4 Các đặc tính của thư rác

- Thư rác chứa các đặc tính cơ bản sau:

 Thư rác mang tính tương đối vì thư mang tính cá nhân, có thể một thư điện tử là vô bổ với người này nhưng lại có ích với người khác Ví dụ một thư điện tử quảng cáo/ rao vặt cho một sản phẩm cụ thể có thể được một số người quan tâm nhưng những người còn lại xem đó là rác

 Tính bất biến trong một thư rác thể hiện ở những từ, cụm từ hầu như không thay đổi trong những lần gửi thư (Ví dụ: Tên người, tên công ty, tên sản phẩm, mã sản phẩm, tên website của sản phẩm, địa chỉ lưu trữ mua bán sản phẩm, …)

- Đặc tính phần header của thư rác [8]

 Địa chỉ thư điện tử của người nhận sẽ không thể hiện ở trường “To:” hoặc “Cc:”, vì địa chỉ này sẽ được ẩn trong trường “Bcc:”, spammer thực hiện hành động này để giấu số lượng lớn các địa chỉ thư điện tử

mà spammer muốn gửi thư rác 

 Để nội dung trống hoặc thiếu trường “To:” 

 Trường “To:” thể hiện một địa chỉ thư điện tử không hợp lệ 

 Nội dung trường “From:” giống trường “To:”.

 Thiếu trường “From:” 

 Định danh - ID của thư điện tử bị thiếu hoặc là ID giả 

 Trường “Bcc:” có tồn tại, vì ở các thư điện tử thông thường trường này thường không xuất hiện 

 Trường “X-mailer” – là trường thể hiện tên phần mềm dùng để gửi thư

Trang 16

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

điện tử, nếu trường này bao gồm tên của phần mềm gửi thư rác quen thuộc thì có thể xác định được là thư rác hay không 

 X-UIDL header: là một định danh duy nhất được sử dụng bởi các giao thức POP để lấy thư điện tử từ một máy chủ mail Nó thường được thêm vào giữa các máy chủ mail của người nhận và phần mềm thư điện tử của người nhận, nếu thư đến tại các máy chủ mail mà xuất hiện trường này thì là thư rác 

 Tồn tại các dòng mã lệnh hoặc khoảng trắng tuần tự Ví dụ như thêm

mã lệnh trên chủ đề của thư và dùng khoảng trắng để giấu 

 Tồn tại các dòng mã HTML không đúng quy tắc 

- Nội dung của thư chứa các từ thường xuất hiện trong thư rác (kiếm tiền, giàu nhanh, chọn nhanh, )

- Sự giống nhau ở kích thước/ loại tập tin/ tên tập tin đính kèm thư rác ở các lần SPAM

1.1.5 Các kỹ thuật tạo thư rác

- Chỉnh sửa phần header của thư rác:

 Nhập địa chỉ của các người nhận thư rác vào trường “Bcc:” thay vì trường “To:” hoặc “Cc:” 

 Thể hiện ở trường “To:” địa chỉ thư điện tử không hợp lệ để đánh lừa người nhận 

đích đánh lừa người nhận thư rác 

- Chỉnh sửa phần nội dung của thư rác:

 Gửi cùng một văn bản thư rác nhiều lần mà không thay đổi gì hết 

 Đảo một số đoạn trong văn bản thư rác cho lần gửi kế tiếp 

 Xóa bớt một số đoạn trong văn bản thư rác cho lần gửi kế tiếp 

Trang 17

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

 Thêm một số đoạn trong văn bản thư rác cho lần gửi kế tiếp 

 Thay đổi cách dùng từ nhưng ý nghĩa văn bản thư rác vẫn không đổi 

Có nhiều loại danh sách blackhole khác nhau (IP blacklist, DNS blacklist, email blacklist) đưa đến nhiều mức độ lọc khác nhau trong cộng đồng mạng, cho các ISP tự do lựa chọn chính sách lọc thư rác phù hợp với mình Mỗi blackhole có một tập luật và điều kiện khác nhau để xác định thư rác Một vài danh sách quá khắt khe và quá nhiều điều kiện dẫn đến rủi ro các thư điện tử hợp lệ bị mất rất cao Các danh sách blackhole có 2 yếu điểm quan trọng:

 Đầu tiên là thời gian lan truyền [6] Các danh sách blackhole sẽ thêm các địa chỉ mạng vào danh sách của nó chỉ khi mạng đó được dùng để phát tán thư rác Trước đây việc thêm các mạng đó vào danh sách là một việc tốt do kẻ phát tán thư rác khá bị động Nhưng ngày nay kẻ phát tán thư rác có thể đánh cắp tài khoản dialup, sử dụng các open relays (Máy trung gian giúp gửi mail) tạo ra các host

Trang 18

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

mới để gửi thư rác trước khi chúng được thêm vào danh sách blackhole

 Thứ hai là chất lượng duy trì các danh sách blackhole [6] Ngày nay nhiều danh sách blackhole được duy trì kém Kết quả là một vài mạng hợp lệ bị thêm vào blacklist không bao giờ bị xóa, hay chậm xóa Những vấn đề này làm cho một số blacklist rất không được tin cậy do chúng khóa cả những thư điện tử hợp lệ

1.2.1.2 Ưu – khuyết điểm

 Tốn nhiều công sức để duy trì danh sách blacklist 

Whitelist là một danh sách các địa chỉ thư điện tử hay địa chỉ IP được coi

là không phát tán thư rác Các danh sách whitelist thường được sử dụng trong các ứng dụng thư điện tử để cho phép người dùng tạo ra danh sách những người mà họ muốn nhận thư điện tử Danh sách này sẽ ghi đè lên bất cứ danh sách blacklist nào, và nó cho phép thư điện tử được gửi vào hộp thư của

Trang 19

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

người dùng mà không cần phải lọc như thư rác

Whitelisting ngược với blacklisting, nó sử dụng một danh sách tin cậy Theo mặc định mọi người sẽ bị blacklist trừ khi họ có tên trong danh sách whitelist

Điểm khác biệt lớn nhất giữa kỹ thuật whitelisting và các kỹ thuật lọc nội dung là các kỹ thuật lọc nội dung được dùng để xác định thư rác, còn whitelisting được dùng để xác định người gửi Hầu hết các whitelist được quản lý riêng bởi mỗi người dùng vì số lượng thư điện tử hợp lệ rất là lớn

Kỹ thuật whitelisting có độ chính xác 100%, chủ yếu là vì nó chỉ cho phép những địa chỉ rõ ràng đi qua Điều này là một lợi thế lớn, nhưng cũng có ý bất lợi Bởi vì tất cả thư điện tử của người lạ đều bị loại bỏ nên các thư điện tử hợp lệ từ những người muốn liên lạc với một người dùng nào đó cũng sẽ bị loại bỏ [6] Người dùng đó không hề biết là có người đã cố gắng liên lạc với mình

Nhiều hệ thống whitelisting chỉ tạo danh sách whitelist dựa trên địa chỉ thư điện tử trong phần thông tin của trường “From:” Điều này giúp phần lớn người dùng dễ dàng thêm các địa chỉ thư điện tử những người bạn của họ vào danh sách whitelist Trường “From:” được xem là trường tin cậy, nhưng mà trong thực tế nó rất dễ bị giả mạo do bên nhận không chứng thực người gửi Khi kẻ phát tán thư rác giả mạo một địa chỉ trong whitelist của người dùng, nếu người nhận xóa địa chỉ đó khỏi whitelist thì các thư điện tử từ người thực

sự có địa chỉ đó sẽ bị khóa Ngược lại nếu giữ lại địa chỉ đó thì người nhận sẽ nhận được tất cả các thư rác từ người gửi giả mạo địa chỉ đó Không có giải pháp trung gian cho vấn đề này, whitelisting chỉ có thể làm việc hoặc không làm việc

Nhiều bộ lọc dựa trên nội dung sử dụng kỹ thuật whitelisting trước khi lọc

Trang 20

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

nội dung để tăng cường độ chính xác

1.2.2.2 Ưu – khuyết điểm

u điểm

 Kết quả rất chính xác 

 Không phải dựa trên việc học nội dung thông điệp 

Khuyết điểm 

 Có thể giả mạo địa chỉ trong danh sách whitelist 

 Tất cả người dùng phải được tin cậy mới có thể gửi email vào inbox được 

 Người dùng cần phải cấu hình danh sách whitelist một cách thủ công 

1.2.2.3 Ghi chú

Phù hợp cho những người dùng cần độ chính xác cao mà không bận tâm đến rủi ro có thể mất các email mang lại cơ hội nghề nghiệp hay cơ hội kinh doanh

1.2.3 Kỹ thuật heuristic filtering

1.2.3.1 Giới thiệu

Phương pháp lọc mail Heuristic được phát triển vào cuối năm 1990 Phương pháp này sử dụng một tập các luật thông dụng nhằm nhận dạng tính chất của thư rác cụ thể nào đó Các tính chất này có thể nằm trong nội dung hoặc có được do quan sát cấu trúc cụ thể đặc thù của thư rác Không giống như các bộ lọc nguyên thủy, bộ lọc heuristic có các luật để phát hiện cả thư rác lẫn thư hợp lệ Các thông điệp chỉ có một ít đặc điểm là thư rác có thể được xem là thư hợp lệ nếu ta không thiết lập cảnh báo cho trường hợp này Heuristic filtering làm việc dựa trên hàng ngàn luật được định nghĩa trước [4] Mỗi luật đều được gán một điểm số để biết xác suất thông điệp có phải là

Trang 21

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

thư rác không Kết quả cuối cùng của biểu thức gọi là SPAM Score SPAM score để đo mức độ của thư rác (thấp, trung bình hay cao) Thiết lập mức độ càng cao thì càng lọc được nhiều thư rác, tuy nhiên tỉ lệ false-positive cũng sẽ tăng do các thư điện tử hợp lệ bị coi là thư rác cũng nhiều hơn Dựa vào Spam Score và một ngưỡng xác định thì các thông điệp được phân lớp thành thư rác, thư hợp lệ và thư chưa xác định Tuy nhiên cũng có ngoại lệ cho luật này:

 Các thông điệp từ người gửi trong whitelist không bao giờ bị coi là thư rác.

 Các thông điệp từ người gửi trong blacklist luôn luôn bị coi là thư rác.

Heuristic filtering có hai điểm yếu nghiêm trọng làm giảm hiệu quả của nó:

 Điểm yếu chính xuất phát từ lý do tập luật được thiết kế để mọi người sử dụng Do đó cần phải cắt giảm một số luật để tránh một số lỗi false-positive quan trọng (các thư thường bị coi là thư rác) Kết quả là, phiên bản đầu tiên của SpamAssasin (phần mềm mã nguồn

mở đầu tiên để lọc thư rác) có một tỉ lệ lỗi là 1/10 thông điệp, các phiên bản sau này cải thiện chỉ còn 1/20 thông điệp, đạt độ chính xác khoảng 95% 

các luật, cho nên kẻ phát tán thư rác có thể học và thích nghi với các luật để vượt qua bộ lọc [6] Kết quả là độ chính xác giảm nghiêm trọng, một vài nhà quản trị hệ thống cho biết trong một số trường hợp nó có thể giảm xuống 40% [6] Độ chính xác sẽ tăng khi tác giả bộ lọc thêm các luật mới nhưng cũng sẽ nhanh chóng giảm khi những kẻ phát tán thư rác thích nghi với các luật này

Trang 22

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1.2.3.2 Ưu – khuyết điểm

u điểm

 Độ chính xác cao hơn các phương pháp lọc thô sơ 

 Chúng ta có thể dễ dàng phân phối các tập luật 

Khuyết điểm 

 Các tập luật cần được duy trì thường xuyên 

 Độ chính xác không tốt bằng các bộ lọc thống kê mới hơn 

 Những kẻ phát tán thư rác có thể sử dụng các tập luật để qua mặt bộ lọc 

1.2.4.2 Ưu – khuyết điểm

u điểm

 Rất chính xác.

Trang 23

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

 Không dựa trên việc học nội dung của thông điệp.

Khuyết điểm 

 Làm việc gửi thư điện tử bị chậm lại 

 Phía người gửi cần phải xác thực địa chỉ của mình một cách thủ công 

 Khiến cho nhiều người không muốn gửi thư điện tử tới chúng ta 

 Đường truyền chịu tải cao do lượng thư điện tử phát sinh lớn 

 Có thể bị giả mạo địa chỉ

1.2.4.3 Ghi chú

Phù hợp cho người dùng muốn người gửi phải được xác thực trước khi giao tiếp và không quan tâm tới việc có thể mất các thư điện tử mang đến cơ hội nghề nghiệp hay những người dùng muốn giới hạn số lượng người họ muốn giao tiếp

1.2.5 Phân tích và định hướng phát triển ứng dụng thử nghiệm

Trang 24

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Challenge/

Qua bảng thống kê 1.1 và các kỹ thuật chống thư rác được giới thiệu ở trên, chúng ta đều thấy được ưu điểm và khuyết điểm của từng kỹ thuật Đa số các kỹ thuật chống thư rác trên đều lọc dựa vào phần header của thư hoặc ngăn chặn ngay từ kẻ phát tán thư rác (blacklist, whitelist) mà ít quan tâm đến phần nội dung của thư

Các kỹ thuật giới thiệu trên ngoại trừ kỹ thuật sử dụng máy học không có quá trình huấn luyện để “học” sự thay đổi của thư rác theo thời gian, chính vì thế khiến cho thư rác vượt qua các bộ lọc sử dụng các kỹ thuật trên khá lớn Trong các kỹ thuật đã giới thiệu, kỹ thuật heuristic là có thể “học” sự thay đổi của thư rác nhưng phải do nhà quản trị mạng liên tục cập nhật các luật giúp cho bộ lọc nhận ra loại thư rác mới Tuy nhiên điều này làm tăng số lượng công việc mà nhà quản trị mạng phải thực hiện

 Một quá trình mà một chương trình máy tính cải thiện hiệu suất của

nó trong một công việc thông qua kinh nghiệm [Mitchell, 1997].

 Việc lập trình các máy tính để tối ưu hóa một tiêu chí hiệu suất dựa trên các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [Alpaydin,

Trang 25

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2004].

Phương pháp biểu diễn một bài toán học máy như sau: [Mitchell, 1997]

Học máy = cải thiện hiệu quả một công việc thông qua kinh nghiệm

 Một công việc (nhiệm vụ) T 

 Đối với các tiêu chí đánh giá hiệu năng P 

 Thông qua (sử dụng) kinh nghiệm E 

Bài toán học máy lọc thư rác (Email SPAM filtering)

 T : Dự đoán (để lọc) những thư điện tử nào là thư rác (SPAM email).

 P : % của các thư điện tử gửi đến được phân loại chính xác.

 E : Một tập các thư điện tử (emails) mẫu, mỗi thư điện tử được biểu diễn bằng một tập thuộc tính (ví dụ: tập từ khóa) và nhãn lớp (thư thường/thư rác) tương ứng 

Khuyết điểm

 Phải mất một khoảng thời gian đầu huấn luyện cho bộ lọc.

1.3.1 Support vector Machine (SVM)

Một kỹ thuật học máy có hiệu quả trong việc giải quyết phân loại và xấp xỉ là máy vector hỗ trợ (SVMs) (Cortes và Vapnik, 1995; Osuna et al, 1997; Burges, 1998; Cristianini và Shawe-Taylor, 2000; Huang et al 2006)

Mô hình SVM được Drucker et al (1999) áp dụng đầu tiên cho lọc thư rác

Trang 26

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Một máy vector hỗ trợ thực hiện phân loại e-mail bằng cách lập bản đồ phi tuyến của tập dữ liệu huấn luyện thành một không gian đặc trưng đa chiều Sau đó, xây dựng một siêu phẳng (ranh giới quyết định) N-chiều để tách bộ

dữ liệu thành hai cụm spam và ham

Hình 1.2 Mô hình SVM

Hình trên cho thấy một bộ dữ liệu tuyến tính được tách biệt trong một không gian 2-dimesional với hai cách khác nhau để phân biệt chúng Chất lượng của siêu phẳng này được quyết định bởi một khoảng cách (được gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến đường thẳng này Khoảng cách biên càng lớn thì sự phân chia các điểm ra thành hai lớp càng tốt, nghĩa

là sẽ đạt được kết quả phân loại tốt Mục tiêu của thuật toán SVM là tìm được khoảng cách biên lớn nhất để tạo kết quả phân loại tốt

Hình 1.3 Siêu phẳng h phân chia dữ liệu

Phương trình siêu phẳng chứa vector di trong không gian như sau:

Trang 27

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Như thế vector h(di) biểu diễn sự phân lớp của vector di vào hai lớp Gọi Yi= h(di) mang giá trị +1 hoặc -1, khi đó Yi = +1 văn bản tương ứng với vector di

thuộc lớp + và ngược lại nó sẽ thuộc vào lớp - Khi này để có siêu mặt phẳng

h ta sẽ giải bài toán sau:

Tìm Min với và b thỏa mãn điều kiện:

Chúng ta thấy rằng SVM là mặt phẳng quyết định chỉ phụ thuộc vào các vector hỗ trợ có khoảng cách đến mặt phẳng quyết định là 1/wi Khi các điểm khác bị xóa đi thì thuật toán vẫn cho kết quả giống như ban đầu Chính đặc điểm này làm cho SVM khác với các thuật toán khác như kNN, Nnet, NB vì tất cả dữ liệu trong tập huấn luyện đều được dùng để tối ưu hóa kết quả

1.3.2 K–Nearest Neighbor (kNN)

kNN là phương pháp truyền thống khá nổi tiếng theo hướng tiếp cận thống kê đã được nghiên cứu trong nhiều năm qua kNN được đánh giá là một trong những phương pháp tốt nhất được sử dụng từ những thời kỳ đầu trong nghiên cứu về phân loại văn bản

Ý tưởng của phương pháp này đó là khi cần phân loại một văn bản mới, thuật toán sẽ xác định khoảng cách (có thể áp dụng các công thức về khoảng cách như Euclide, Cosine, Manhattan,…) của tất cả các văn bản trong tập huấn luyện đến văn bản này để tìm ra k văn bản gần nhất, gọi là k nearest neighbor – k láng giềng gần nhất, sau đó dùng các khoảng cách này đánh

Trang 28

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

trọng số cho tất cả các chủ đề Khi đó, trọng số của một chủ đề chính là tổng tất cả các khoảng cách ở trên của các văn bản trong k láng giềng có cùng chủ

đề, chủ đề nào không xuất hiện trong k láng giềng sẽ có trọng số bằng 0 Sau

đó các chủ đề sẽ được sắp xếp theo giá trị trọng số giảm dần và các chủ đề có trọng số cao sẽ được chọn làm chủ đề của văn bản cần phân loại

Trọng số của chủ đề cj đối với văn bản x được tính như sau:

Trong đó:

y (di, c) thuộc {0,1}, với:

+ y = 0 : văn bản di không thuộc về chủ đề cj

+ y = 1 : văn bản di thuộc về chủ đề cj

sim (x , d) : độ giống nhau giữa văn bản cần phân loại x và văn bản d

Chúng ta có thể sử dụng độ đo cosine để tính khoảng cách:

 - bj là ngưỡng phân loại của chủ đề cj được tự động học sử dụng một tập văn bản hợp lệ được chọn ra từ tập huấn luyện

Để chọn được tham số k tốt nhất cho thao tác phân loại, thuật toán cần được chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật toán càng ổn định và sai sót càng thấp

Trang 29

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đặc trưng X 1 , X 2 ,…, X n Mỗi đặc trưng có thể là một từ hoặc một cụm từ Ở

đây, n là số lượng đặc trưng được xác định từ toàn bộ tập dữ liệu huấn luyện,

tức là số lượng từ/cụm từ khác nhau trong tập dữ liệu huấn luyện Mỗi thư

được gán một nhãn phân loại Y có thể nhận một trong hai giá trị: Y = 1 cho trường hợp thư rác và Y = 0 cho trường hợp thư bình thường

Để xác định nhãn phân loại cho thư, bộ phân loại Bayes tính xác suất điều kiện

P (Y = y | X1 = x1,…, X n = x n)

Tức là xác suất một thư với nội dung (x1, x2, …, xn) nhận nhãn phân loại

y, y {1,0} Sử dụng công thức Bayes, xác suất trên được tính như sau:

) , ,

(

) ( )

| , ,

( ) , ,

| (

1 1

1 1 1

1

n n

n n n

n

x X x X P

y Y P y Y x X x X P x X x X y

Trong công thức (1), giá trị mẫu số không phụ thuộc vào nhãn phân loại

và do vậy có thể bỏ qua Nhãn phân loại Y là nhãn tương ứng với giá trị lớn

nhất của tử số Cụ thể, trong trường hợp phân loại thư rác, nhãn của thư được xác định bằng cách tính giá trị biểu thức:

) 0 ( ) 0

| , ,

(

) 1 ( ) 1

| , ,

( ) , ,

| 0

(

) , ,

| 1

(

1 1

1 1 1

1

1 1

x X x X P

Y P Y

x X x X P x X x X Y

P

x X x X Y

P

n n

n n

n n

n n

(2)

Giá trị biểu thức (2) lớn hơn 1 có nghĩa xác suất thư là thư rác lớn hơn xác suất thư bình thường và thư sẽ được gán nhãn thư rác Giá trị biểu thức (2) nhỏ hơn 1 cho kết quả ngược lại Tuy nhiên, đối với bài toán lọc thư, lỗi phân loại thư rác thành thư thường dễ chấp nhận hơn nhiều so với phân loại nhầm thư thường thành thư rác Do vậy, không thể chỉ đơn thuần gán cho thư nhãn có xác suất điều kiện lớn hơn Giả sử việc phân loại thư rác thành thư

thường dễ chấp nhận hơn phân loại thư thường thành thư rác T lần, theo lý

Trang 30

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

thuyết phân loại Bayes tối ưu trình bày trong [Duda &Hard], thư sẽ được phân loại là rác nếu

T Y

P Y

x X x X P

Y P Y

x X x X P

n n

| , ,

(

) 1 ( ) 1

| , ,

(

1 1

1 1

cách tính giá trị P ( X

= x

| Y = y) khác nhau tương ứng với các phiên bản khác

nhau của phương pháp phân loại văn bản sử dụng Bayes đơn giản

1.3.4 Mạng Neural (Nnet)

Nnet được nghiên cứu mạnh trong hướng trí tuệ nhân tạo Wiener là người đã sử dụng Nnet để phân loại văn bản, sử dụng 2 hướng tiếp cận: kiến trúc phẳng (không sử dụng lớp ẩn) và mạng nơron 3 lớp (bao gồm một lớp ẩn) [Wiener et al, 1995]

Cả hai hệ thống trên đều sử dụng một mạng nơron riêng rẽ cho từng chủ đề, NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mô hình vector của một văn bản vào một chủ đề cụ thể

Khuyết điểm của phương pháp NNet là tiêu tốn nhiều thời gian dành cho việc huấn luyện mạng nơron

Ý tưởng của phương pháp này là mô hình mạng neural gồm có ba thành phần chính như sau: kiến trúc (architecture), hàm chi phí (cost function), và thuật toán tìm kiếm (search algorithm) Kiến trúc định nghĩa dạng chức năng

Trang 31

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

(functional form) liên quan giá trị nhập (inputs) đến giá trị xuất (outputs) Kiến trúc phẳng (flat architecture): Mạng phân loại đơn giản nhất (còn gọi là mạng logic) có một đơn vị xuất là kích hoạt kết quả (logistic activation) và không có lớp ẩn, kết quả trả về ở dạng hàm (functional form) tương đương với mô hình hồi quy logic Thuật toán tìm kiếm chia nhỏ mô hình mạng để thích hợp với việc điều chỉnh mô hình ứng với tập huấn luyện

Kiến trúc mô đun (modular architecture): Việc sử dụng một hay nhiều lớp

ẩn của những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệ giữa những biến nhập và biến xuất Mỗi lớp ẩn học để biểu diễn lại

dữ liệu đầu vào bằng cách khám phá ra những đặc trưng ở mức cao hơn từ sự kết hợp đặc trưng ở mức trước Trong công trình của Wiener et al (1995) dựa theo khung của mô hình hồi quy, liên quan từ đặc trưng đầu vào cho đến kết quả gán chủ đề tương ứng được học từ tập dữ liệu Do vậy, để phân tích một cách tuyến tính, tác giả dùng hàm sigmoid sau làm hàm truyền trong mạng neural:

Trong đó là sự kết hợp của những đặc trưng đầu vào và p phải thỏa

Trang 32

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Chương 2

HỆ MIỄN DỊCH NHÂN TẠO

Hệ miễn dịch nhân tạo là một lĩnh vực nghiên cứu phong phú và chín muồi, nó kết hợp các nguyên lý miễn dịch học và tính toán Nhiều nhà nghiên cứu quan tâm đến áp dụng các nguyên lý miễn dịch học cho an ninh máy tính,

an ninh mạng, giải các bài toán tối ưu Thuật toán chọn lọc âm tính là một trong những mô hình tính toán về phát hiện self/nonself có thể được dùng cho phát hiện bất thường Nó bao gồm hai giai đoạn: sinh một tập D các bộ dò mà không khớp được với bất kỳ phần tử nào của một tập self cho trước S Sau đó,

sử dụng những bộ dò này để phân biệt một tế bào cho trước là self hay nonself Hiệu suất của thuật toán chọn lọc âm tính phụ thuộc vào tính hiệu quả của cả hai giai đoạn sinh và phát hiện Các khái niệm và thuật toán trong chương này có thể tìm thấy trong [1], [2], [5], [7], [9], [11]

Trang 33

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.1.1.2 Các tầng bảo vệ của hệ miễn dịch

+ Mức sinh hóa (Biochemical Barriers): Các chất lưu như nước bọt, mồ hôi, nước mắt chứa những enzym có thể loại bỏ kháng nguyên Các axit trong vùng da cùng với nhiệt độ của cơ thể cũng ngăn cản sự sống và kháng sinh của kháng nguyên

+ Mức HMD thích nghi và HMD bẩm sinh:

Trang 34

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- HMD bẩm sinh: Hoạt động dựa vào bạch cầu huyết là đại thực bào và bạch cầu trung tính (có chức năng nuốt và tiêu diệt các vi trùng, tạo ra một cơ chế bảo vệ quan trọng chống lại các bệnh truyền nhiễm) Những bạch huyết này có các cơ quan thụ cảm trên bề mặt, chúng có thể nhận diện và bám vào các phần tử gây bệnh

Với những vi khuẩn thông thường, HMD bẩm sinh có thể nhận diện và loại bỏ

HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinh đối với các vi sinh vật xâm nhập vào cơ thể lần thứ hai không có gì khác

so với lần thứ nhất

- HMD thích nghi: hoạt động với các thành phần chính là các lymphô bào (Lymphocyte – là một loại bạch cầu) bao gồm B-cell và T-cell Các B-cell và T-cell trên bề mặt của chúng có những cơ quan thụ cảm chuyên dụng cho một loại kháng thể nào đó Khi kháng nguyên xâm nhập vào cơ thể các cơ quan thụ cảm trên bề mặt của lymphô bào sẽ kết hợp với kháng nguyên làm cho các lymphô bào này được kích hoạt và thực hiện quá trình nhân rộng, đột biến sau đó tạo ra những kháng thể thích hợp có khả năng nhận diện và loại ổ kháng nguyên Một số lymphô bào sẽ trở thành tế bào có khả năng ghi nhớ lưu thông trong cơ thể Khi có loại kháng nguyên tương tự lây nhiễm, thì HMD thích nghi có thể nhanh chóng phát hiện và loại bỏ chúng Khả năng này giúp cho cơ thể không mắc lại những bệnh cũ, do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoàn thiện sau mỗi lần đụng độ với kháng nguyên

Trang 35

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 2.2 Một số cơ quan của hệ miễn dịch sinh học

HMD nhân tạo được trình bày ở phần sau chỉ mô phỏng cơ chế miễn dịch sinh học của HMD thích nghi

2.1.1.3 Phân biệt self và nonself

Trong quá trình chọn lọc các tế bào B-cell và T-cell, HMD thích nghi không chỉ phải chọn những tế bào có khả năng nhận biết những tế bào lạ (antigen hay nonself), mà nó còn phải loại bỏ những tế bào nhận biết được những tế bào do cơ thể tạo ra (self - antigen hay đơn giản là self) Tương ứng với hai quá trình này ta có quá trình chọn lọc tích cực và quá trình chọn lọc tiêu cực Hai quá trình này xảy ra với cả B-cell và T-cell với nguyên lý khá giống nhau Khi xây dựng thuật toán, chúng ta chỉ cần xét với T-cell [5]

+ Phép chọn lọc tích cực

Phép chọn lọc tích cực đối với các Lymphô bào (T-cell và B-cell) nhằm mục đích tránh sự xuất hiện của các Lymphô bào không có ích Những Lymphô bào mà cơ quan thụ cảm của chúng không có khả năng nhận diện

Trang 36

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

được kháng nguyên Kết quả cuối cùng là những Lymphô bào có khả năng nhận diện được kháng nguyên [5]

+ Phép chọn lọc tiêu cực

Phép chọn lọc tiêu cực của các lymphô bào nhằm mục đích loại bỏ những lymphô bào mà cơ quan thụ cảm của nó nhận diện được các tế bào do

cơ thể tạo ra và nó có thể tiêu diệt những tế bào này

2.1.2 Hệ miễn dịch nhân tạo

2.1.2.1 Khái niệm hệ miễn dịch nhân tạo

HMD nhân tạo là một hệ thống thích nghi lấy ý tưởng của miễn dịch học và những chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụng giải các bài toán thực tế [5]

2.1.2.2 Mô hình hệ miễn dịch nhân tạo

Lời giải

Lĩnh vực ứng dụng

Hình 2.3 Cấu trúc phân tầng của HMD nhân tạo

- Tầng đầu tiên là lĩnh vực ứng dụng, đây là điểm cơ bản của mọi hệ thống không chỉ với HMD nhân tạo Đối với lĩnh vực ứng dụng khác nhau sẽ

Các thuật toán miễn dịch

Các phương pháp đánh giá độ thích hợp Biểu diễn các thành phần

AIS

Trang 37

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

quyết định những thành phần và cách thức biểu diễn khác nhau và dẫn tới các thao tác trên các thành phần cũng khác nhau

- Tầng thứ hai là biểu diễn các thành phần: Trong HMD nhân tạo phải biểu diễn được hai thành phần quan trọng là kháng thể và kháng nguyên

- Tầng thứ ba là các phương pháp đánh giá độ thích hợp: Để đánh giá

độ thích hợp có thể sử dụng nhiều phương pháp khác nhau như khoảng cách Hamming, khoảng cách Euclid, hoặc khoảng cách Mahattan

- Tầng thứ tư là sử dụng các thuật toán miễn dịch: Có thể dùng các thuật toán miễn dịch như thuật toán chọn lọc tích cực, NSA, thuật toán clôn, thuật toán aiNet, thuật toán RAIN để điều chỉnh tính động của hệ HMD nhân tạo

- Tầng thứ năm là đưa ra lời giải thích cho bài toán: Lời giải cho bài toán sẽ được cập nhật lại sau khi một quần thể mới được tạo và đưa ra kết quả cuối cùng khi đạt đến điều kiện kết thúc nào đó ví dụ như sau một số bước lặp nhất định [3]

2.1.2.3 Thuật toán chọn lọc tích cực và tiêu cực

+ Thuật toán chọn lọc tích cực (Positive Selection Algorithms)

Ý tưởng của thuật toán khá đơn giản, đó là chọn lọc những T-cell có thể nhận diện các peptide (một phần của kháng nguyên xâm nhập vào cơ thể),

mà peptide này đã kết hợp với MHC (Major Histocompatibility Complex - phức hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell) để tạo thành MHC/peptide Giả thiết có tập MHC/peptide, kí hiệu là tập

S, các cơ quan thụ cảm T-cell sẽ phải được kiểm tra về khả năng kết hợp với các phần tử thuộc tập S này Nếu một T-cell không nhận diện được bất kỳ phần tử nào, nó sẽ bị loại bỏ Trái lại, nó được chọn như một tế bào có khả năng miễn dịch và bổ sung vào quần thể có giá trị A

Trang 38

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Cho vào quần thể có giá trị A

Bước 2 Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả phần

tử trong quần thể P với tất cả phần tử trong tập Self S

Bước 3 Tạo một quần thể có giá trị: Nếu độ thích hợp của một phần tử trong P với một phần tử trong S lớn hơn hoặc bằng một ngưỡng tương tác chéo nào đó thì T-cell có khả năng nhận diện kháng nguyên, sẽ được chọn vào quần thể có giá trị A trái lại T-cell bị loại bỏ

Hình 2.4 Sơ đồ khối thuật toán chọn lọc tích cực

+ Thuật toán chọn lọc tiêu cực (Negative Selection Algorithms-NSA)

Trang 39

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

NSA của Forrest và các đồng nghiệp khá đơn giản [5]: Giả sử đã có một tập Self-Peptide để tạo thành phức chất MHC-Self peptide, các cơ quan thụ cảm T-cell nếu nhận diện được một self-peptide thì sẽ bị loại bỏ, trái lại nó sẽ được chọn như một tế bào có khả năng miễn dịch và bổ sung vào quần thể có giá trị A Thuật toán chọn lọc tiêu cực được minh họa trong hình 2.5 có thể được tóm tắt như sau:

Bước 1 Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưa trưởng thành Giả thiết tất cả các phần tử (các cơ quan thụ cảm và các self-peptide) được biểu diễn bằng một xâu nhị phân ℓ bit

Bước 2 Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả T-cell trong P với mọi phần tử của tập Self S

Bước 3 Tạo một quần thể có giá trị: Nếu độ thích hợp của một T-cell chưa trưởng thành với ít nhất một phần tử self-peptide lớn hơn hoặc bằng một ngưỡng tương tác chéo nào đó, thì T- cell nhận diện được self-peptide này và

bị loại bỏ, trái lại T- cell được bổ sung vào quần thể có giá trị A

S

Loại bỏ Quần thể

tiềm năng P

p  P nhận diện được s  S

Cho vào quần thể có giá trị A Sai

Đúng

Trang 40

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 2.5 Sơ đồ khối thuật toán chọn lọc tiêu cực

2.1.2.4 Sự tương quan giữa hệ miễn dịch với môi trường mạng

Bảng 2.1 Sự tương quan giữa hệ miễn dịch với môi trường mạng

Da và HMD bẩm sinh Mật khẩu, quyền truy cập file, truy cập

nhóm người dùng,…

tiến trình khác để phát hiện bất thường

được hiểu theo nghĩa thông thường là tập tất cả các xâu kí tự độ dài k xây dựng từ tập kí tự Σ

Ngày đăng: 21/03/2017, 15:16

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân, (2007), Hệ miễn dịch nhân tạo và ứng dụng, Tạp chí Khoa học và Công nghệ Đại học Thái Nguyên, 13-18 Sách, tạp chí
Tiêu đề: Hệ miễn dịch nhân tạo và ứng dụng
Tác giả: Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân
Năm: 2007
[2]. Phạm Đình Lựu, (2005), Sinh Lý Học Y Khoa, Đại Học Y Dược TP. Hồ Chí Minh Sách, tạp chí
Tiêu đề: Sinh Lý Học Y Khoa
Tác giả: Phạm Đình Lựu
Năm: 2005
[3]. Lương Quốc Sơn, (2012), Nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ Anh – Việt, Luận văn Thạc sĩ CNTT, Đại học Lạc Hồng.Tiếng Anh Sách, tạp chí
Tiêu đề: Nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ Anh – Việt", Luận văn Thạc sĩ CNTT, Đại học Lạc Hồng
Tác giả: Lương Quốc Sơn
Năm: 2012
[5]. Forrest et al, Self-Nonself Discrimination in a Computer, (1994), in Proceedings of 1994 IEEE Symposium on Research in Security and Privacy, Oakland, CA, 202-212 Sách, tạp chí
Tiêu đề: et al, Self-Nonself Discrimination in a Computer, ("1994"), in Proceedings of 1994 IEEE Symposium on Research in Security and Privacy
Tác giả: Forrest et al, Self-Nonself Discrimination in a Computer
Năm: 1994
[6]. Jonathan A. Zdziarski, Ending Spam, (2005), Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press Sách, tạp chí
Tiêu đề: Bayesian Content Filtering and the Art of Statistical Language Classification
Tác giả: Jonathan A. Zdziarski, Ending Spam
Năm: 2005
[7]. M. Elberfeld, J. Textor, (2009), Efficient algorithms for string-based negative selection, Proceedings of the 8 th International Conference on Artificial Immune Systems, LNCS 5666, 109-121 Sách, tạp chí
Tiêu đề: Efficient algorithms for string-based negative selection
Tác giả: M. Elberfeld, J. Textor
Năm: 2009
[8]. Mike Spykerman, Typical SPAM characteristics, Red Earth Software, 2003 Sách, tạp chí
Tiêu đề: Typical SPAM characteristics
[9]. T. Stibor et al, (2004), An investigation of r-chunk detector generation on higher alphabets, GECCO 2004, LNCS 3102, 299-30 Sách, tạp chí
Tiêu đề: An investigation of r-chunk detector generation on higher alphabets
Tác giả: T. Stibor et al
Năm: 2004
[10]. Tarek M Mahmoud, Alaa Ismail El Nashar, Tarek Abd-El-Hafeez, Marwa Khairy, (2014), “An Efficient Three-phase Email SPAM Filtering Sách, tạp chí
Tiêu đề: [10]. Tarek M Mahmoud, Alaa Ismail El Nashar, Tarek Abd-El-Hafeez, Marwa Khairy, (2014), “An Efficient Three-phase Email SPAM Filtering
Tác giả: Tarek M Mahmoud, Alaa Ismail El Nashar, Tarek Abd-El-Hafeez, Marwa Khairy
Năm: 2014
[4]. Csaba Gulyás, (2006), Creation of a Bayesian network-based meta SPAM filter, using the analysis of different SPAM filters Khác

HÌNH ẢNH LIÊN QUAN

Bảng 1.1.  Các phần mềm chống thƣ rác - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Bảng 1.1. Các phần mềm chống thƣ rác (Trang 23)
Hình 2.1. Các tầng miễn dịch sinh học - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 2.1. Các tầng miễn dịch sinh học (Trang 33)
Hình 2.2. Một số cơ quan của hệ miễn dịch sinh học - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 2.2. Một số cơ quan của hệ miễn dịch sinh học (Trang 35)
Hình 2.3. Cấu trúc phân tầng của HMD nhân tạo - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 2.3. Cấu trúc phân tầng của HMD nhân tạo (Trang 36)
Hình 2.4. Sơ đồ khối thuật toán chọn lọc tích cực - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 2.4. Sơ đồ khối thuật toán chọn lọc tích cực (Trang 38)
Hình 2.5. Sơ đồ khối thuật toán chọn lọc tiêu cực - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 2.5. Sơ đồ khối thuật toán chọn lọc tiêu cực (Trang 40)
Hình 3.1. Giao diện chương trình lọc spam trên bộ CSDL TREC'07 - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 3.1. Giao diện chương trình lọc spam trên bộ CSDL TREC'07 (Trang 58)
Hình 3.2. Kết quả quá trình test - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 3.2. Kết quả quá trình test (Trang 59)
Bảng 3.1. Kết quả khi chạy chương trình với 9 bộ test - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Bảng 3.1. Kết quả khi chạy chương trình với 9 bộ test (Trang 59)
Hình 3.4. Giao diện Weka Explorer - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 3.4. Giao diện Weka Explorer (Trang 64)
Hình 3.3. Giao diện phần mềm Weka - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 3.3. Giao diện phần mềm Weka (Trang 64)
Hình 3.5. Giao diện Weka Explorer sau khi chọn CSDL Spambase - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 3.5. Giao diện Weka Explorer sau khi chọn CSDL Spambase (Trang 65)
Hình 3.6. Phân loại dữ liệu - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Hình 3.6. Phân loại dữ liệu (Trang 66)
Bảng 3.4. So sánh NSA với một số phương pháp cho kết quả tốt hơn  Phương pháp  TP  TN  FN  FP  DR  FPR  Acc - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Bảng 3.4. So sánh NSA với một số phương pháp cho kết quả tốt hơn Phương pháp TP TN FN FP DR FPR Acc (Trang 72)
Bảng 3.3. Kết quả thử nghiệm trên WEKA và NSA  Phương pháp  TP  TN  FN  FP  DR  FPR  Acc - Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác
Bảng 3.3. Kết quả thử nghiệm trên WEKA và NSA Phương pháp TP TN FN FP DR FPR Acc (Trang 72)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w