1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác lương văn lâm

58 613 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 767,96 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thư rác spam là những thư điện tử được gửi một cách tự động tới tài khoản hộpthư của người dùng với những nội dung không mong đợi, không muốn nhận, không phùhợp hoặc nội dung thư không l

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC SƯ PHẠM

LƯƠNG VĂN LÂM

ỨNG DỤNG HỆ MIỄN DỊCH NHÂN TẠO CHO

LỌC THƯ RÁC

KHOÁ LUẬN TỐT NGHIỆP NGÀNH: TIN HỌC

Người hướng dẫn khoa học: Ths Nguyễn Văn Trường

Thái Nguyên, năm 2015

Trang 2

LỜI CẢM ƠN

Để hoàn thành luận văn tốt nghiệp này, em xin bày tỏ lòng biết ơn sâu sắc tới thầygiáo Ths Nguyễn Văn Trường – Giảng viên Tin học, khoa Toán, Trường Đại học Sư Phạm– Đại học Thái Nguyên, đã định hướng ý tưởng, tận tình giúp đỡ, chỉ bảo em trong suốtquá trình thực hiện luận văn

Em xin chân thành cảm ơn Ban giám hiệu nhà trường, Ban chủ nhiệm khoa Toáncùng toàn thể các thầy, cô giáo trong khoa đã tận tình hướng dẫn, giúp đỡ em thực hiệnluận văn

Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình, bạn bè và những người thân đãđộng viên giúp đỡ em trong suốt quá trình làm luận văn

Trong quá trình tiến hành làm luận văn do chưa có nhiều kinh nghiệm nên khôngtránh khỏi những thiếu sót và hạn chế Vì vậy em rất mong nhận được sự góp ý của cácthầy cô và các bạn sinh viên để luận văn được hoàn thiện hơn

Em xin chân thành cảm ơn!

Thái Nguyên, tháng 04 năm 2015

Lương Văn Lâm

Trang 3

DANH MỤC TỪ VIẾT TẮT, KÝ HIỆU

Viết tắt, ký hiệu Viết đầy đủ, ý nghĩa

NSA Negative Selection Algorithm - Thuật toán chọn lọc tiêu

cực (âm tính)SMTP Simple Mail Transfer Protocol

WEKA Waikato Environment for Knowledge Analysis

IBM International Business Machines

TP Số lượng email spam kết luận đúng

TN Số lượng email thường kết luận đúng

FP Số lượng email thường kết luận sai thành spam

FN Số lượng email spam kết luận sai thành thường

Trang 4

Hình 2.2 Một số bộ phận của HMD sinh học 29

Hình 2.3 Cấu trúc phân tầng của HMD nhân tạo 30

Hình 2.4 Sơ đồ thuật toán chọn lọc tích cực 32

Hình 2.5 Sơ đồ thuật toán chọn lọc tiêu cực 33

Hình 3.1 Giao diện chương trình 40

Hình 3.2 Giao diện phần mềm Weka 50

Hình 3.3 Giao diện Weka Explorer 51

Hình 3.4 Giao diện Weka Explorer sau khi mở nạp Spambase 52

Hình 3.5 Phân loại dữ liệu 52

DANH MỤC CÁC BẢNG Bảng 3.1 Một số kết quả 49

Bảng 3.2 Kết quả thử nghiệm trên WEKA và NSA 53

Bảng 3.3 Kết quả NSA so với một số phương pháp cho kết quả tốt 54

Bảng 3.4 Kết quả của NSA so với một số phương pháp thấp hơn 54

MỤC LỤC Trang bìa phụ……… 1

Lời cảm ơn……… 2

Danh mục từ viết tắt, ký hiệu 3

Trang 5

Danh mục hình vẽ 4

Danh mục các bảng 4

MỤC LỤC 5

MỞ ĐẦU 7

CHƯƠNG 1 TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ THƯ RÁC 9

1.1 Tổng quan về thư điện tử 9

1.1.1 Lịch sử phát triển 9

1.1.2 Thư điện tử là gì 11

1.1.3 Lợi ích của thư điện tử 12

1.1.4 Cấu trúc chung và các giao thức gửi, nhận thư điện tử 13

1.2 Tổng quan về thư rác 16

1.2.1 Lịch sử 16

1.2.2 Định nghĩa 17

1.2.3 Mục đích gửi thư rác 17

1.2.4 Các đặc tính của thư rác 17

1.2.5 Các kĩ thuật tạo thư rác 19

1.2.6 Các kĩ thuật phát hiện và ngăn chặn thư rác 19

1.2.7 Cơ sở dữ liệu thống kê thư rác 24

1.3 Kết luận 26

Chương 2 TỔNG QUAN VỀ HỆ MIỄN DỊCH SINH HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO 27

2.1 Tổng quan về hệ miễn dịch sinh học 27

2.1.1 Khái niệm 27

2.1.2 Các tầng bảo vệ của hệ miễn dịch sinh học 27

2.2 Tổng quan về hệ miễn dịch nhân tạo 30

2.2.1 Khái niệm hệ miễn dịch nhân tạo 30

2.2.2 Mô hình hệ miễn dịch nhân tạo 30

2.2.3 Các thuật toán trong hệ miễn dịch nhân tạo 31

2.2.4 Sinh tập bộ dò 34

2.3 Kết luận 37

Trang 6

Chương 3 XÂY DỰNG CHƯƠNG TRÌNH LỌC THƯ RÁC 38

3.1 Giới thiệu 38

3.1.1 Bài toán lọc thư rác 38

3.1.2 Xây dựng chương trình 39

3.2 Các quá trình thực hiện chương trình 41

3.2.1 Quá trình chia file nguồn (Split file) 41

3.2.2 Quá trình huấn luyện – Tạo tập bộ dò (Training) 41

3.2.3 Quá trình kiểm tra – phân loại (testing) 43

3.3 Phân tích kết quả 48

3.3.1 Khả năng phát hiện thư thường và thư rác 48

3.3.2 So sánh kết quả với một số thuật toán khác 49

3.4 Kết luận 55

KẾT LUẬN 56

TÀI LIỆU THAM KHẢO 57

Trang 7

MỞ ĐẦU

Thư điện tử (email) đã và đang là một trong những phương tiện, công cụ gửi nhậnthông tin được sử dụng rộng rãi nhất trên thế giới Sự phát triển của thư điện tử gắn liền với

sự phát triển của ngành khoa học công nghệ thông tin

Thư rác (spam) là những thư điện tử được gửi một cách tự động tới tài khoản (hộpthư) của người dùng với những nội dung không mong đợi, không muốn nhận, không phùhợp hoặc nội dung thư không liên quan tới người nhận Sự xuất hiện của thư rác gây raphiền phức, mất thời gian cho người sử dụng bên cạnh đó nó cũng làm cho đường truyềnInternet trở nên chậm hơn do số lượng thư rác gửi đi trong một thời điểm là rất nhiều, thưrác cũng là một trong những công cụ phát tán virus máy tính gây ra nhiều hậu quả khólường về nhiều mặt

Để phòng ngừa và ngăn chặn thư rác, nhiều phương pháp đã được sử dụng tạo ranhiều phần mềm lọc thư rác, một trong những phương pháp mới đã và đang được nghiêncứu phát triển là ứng dụng HMD nhân tạo (Artificial immune system - AIS) – là phươngpháp dựa trên nguyên lý, chức năng, mô hình hoạt động của HMD sinh học ở người, với kĩthuật “học máy” mang lại hiệu quả tương đối cao

Với kĩ thuật này các thư điện tử thông thường hoặc thư rác sẽ được “học” hay “huấnluyện” tạo thành cơ sở dữ liệu để phát hiện các thư rác Vấn đề đặt ra là cần cải thiện hiệuquả của quá trình học máy, cũng như quá trình nhận dạng và loại bỏ thư rác

Vì vậy, tôi quyết định lựa chọn nội dung nghiên cứu trong khóa luận của mình là:

“Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác”

I Mục tiêu nghiên cứu

Bước đầu tìm hiểu hệ miễn dịch nhân tạo và áp dụng nó cho bài toán lọc thư rác

II Nhiệm vụ nghiên cứu

- Nghiên cứu lịch sử phát triển của thư điện tử, những lợi ích và mặt hạn chế mà thư

điện tử mang lại

- Nghiên cứu về thư rác: quá trình phát triển, cấu trúc, tác hại của chúng… Tìm hiểunội dung các phương pháp ngăn chặn thư rác, ưu – nhược điểm của các phương pháp

Trang 8

- Tìm hiểu nội dung hệ miễn dịch nhân tạo, một số thuật toán trong hệ miễn dịchnhân tạo.

- Xây dựng chương trình áp dụng một thuật toán của hệ miễn dịch nhân tạo cho lọcthư rác

III Phương pháp nghiên cứu

- Nghiên cứu tài liệu: sách, luận văn, một số đề tài nghiên cứu cùng lĩnh vực, những

bài báo, diễn đàn chuyên về thư điện tử và hệ miễn dịch nhân tạo

- Tham khảo ý kiến thầy giáo hướng dẫn, các bạn sinh viên cùng chuyên ngành

- Thử nghiệm cài đặt chương trình và so sánh hiệu quả của chương trình với một sốphương pháp khác (trên WEKA) về khả năng phát hiện đúng và tỉ lệ lỗi

IV Cấu trúc của đề tài

Ngoài phần mở đầu và kết luận, đề tài có 03 chương:

- Chương 1 Tìm hiểu tổng quan về thư điện tử và thư rác

- Chương 2 Tìm hiểu tổng quan nội dung hệ miễn dịch sinh học và hệ miễn dịchnhân tạo

- Chương 3 Xây dựng chương trình lọc thư rác áp dụng hệ miễn dịch nhân tạo

Trang 9

CHƯƠNG 1 TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ THƯ RÁC

Chương này trình bày tổng quan về lịch sử phát triển, khái niệm, lợi ích của thư điện tử, cấu trúc chung và các giao thức gửi – nhận thư điện tử.

1.1 Tổng quan về thư điện tử

1.1.1 Lịch sử phát triển

Ngày nay thư điện tử (email) là một trong những khái niệm quen thuộc và gần nhưkhông thể thiếu đối với hầu hết người sử dụng Internet, hàng tỉ tài khoản thư điện tử đangđược sử dụng cho thấy thư điện tử là một công cụ gửi, nhận và trao đổi thông tin hàng đầuthế giới hiện nay

Lịch sử phát triển của thư điện tử gắn với các cột mốc sau:

 Thời tiền thư điện tử

- Năm 1961: Tom Van Vleck (kĩ sư phần mềm máy tính của Mĩ) đã phát triển hệthống giao dịch tin nhắn nhiều người dùng trên một máy tính

- Năm 1965: Lần đầu tiên thư điện tử được ra mắt tại viện Công nghệ Massachusetts

- Hoa Kì

- Năm 1971: Ray Tomlinson (lập trình viên người Mĩ) đã phát triển hệ thống giaodịch tin nhắn nhiều người trên nhiều máy tính và gửi bức thư điện tử đầu tiên trên mạngARPANET (Advanced Research Projects Agency Network), bức thư điện tử đó là một bàikiểm tra e-mail

- Năm 1977: Định dạng chuẩn (RFC 733) được Dave Crocker đề xuất để phổ biếnphương thức giao tiếp bằng thư điện tử qua mạng Internet

 Thư điện tử ra đời

- Năm 1978: VA Shiva Ayyadurai đã tạo ra một hệ thống điện tử để gửi thư giữacác phòng trong nội bộ trường Đại học Y và Nha khoa New Jersey

- Năm 1979: Các thành phần: To, From, Cc, Bcc, Subject, Inbox, Outbox, đượcchuyển thành một hệ thống thư điện tử

Trang 10

- Năm 1980: Hệ thống thư điện tử trên được ứng dụng thực tế trong trường Đại học

Y và Nha khoa New Jersey

- Ngày 30/08/1982: Thuật ngữ “email” và hệ thống thư điện tử được trao bản quyềnchính thức

- Năm 1982: Giao thức truyền tải thư điện tử SMTP ra đời SMTP là giao thứctruyền tải thư điện tử qua mạng, SMTP cho phép chuyển thông điệp thư điện tử từ máy chủthư điện tử (mail server) của người gửi đến máy chủ thư điện tử của người nhận

- Năm 1985: Hệ thống phát triển hình thức email offline cho phép người nhận lưutrữ thư trên máy tính

- Năm 1988: Microsoft Mail là hòm thư điện tử thương mại đầu tiên được phát triểndùng cho giao thức mạng MAC (Media Access Control)

- Năm 1989: IBM ra mắt Lotus 1.0 – mô hình email server đầu tiên

 Những năm 1990

- Những năm đầu 1990 vấn nạn thư rác bắt đầu hoành hành

- Năm 1992: Microsoft Outlook phiên bản dành cho hệ điều hành MS-DOS ra đời

- Năm 1993: America Online và Delphi kết nối hệ thống email độc quyền của họvào Internet Cùng lúc đó hãng IBM liên doanh với BellSouth sản xuất dòng điện thoạithông minh đầu tiên Simon Personal Communicator có tính năng sử dụng email

- Năm 1996: Sabeer Bhatia và Jack Smith khởi động “HotMail” - website cung cấpdịch vụ thư điện tử miễn phí đầu tiên trên thế giới và HotMail nhanh chóng trở thành dịch

vụ thư điện tử được sử dụng nhiều nhất thế giới

- Năm 1997: Yahoo! cho ra đời Yahoo Mail tạo ra sự cạnh tranh với Hotmail

- Năm 1999: Blackberry cho phép truy cập dịch vụ thư điện tử qua điện thoại diđộng Khả năng gửi thư qua điện thoại làm cho việc sử dụng thư điện tử trở nên tiện lợi vànhanh chóng hơn bao giờ hết

- Cuối những năm 1990, thư điện tử sử dụng ngôn ngữ HTML ra đời cho phép địnhdạng văn bản phong phú hơn so với văn bản thuần túy

 Những năm đầu thế kỉ 21

Trang 11

- Năm 2000: Microsoft phát hành ứng dụng email client Microsoft Entourage dànhcho hệ điều hành Mac OS.

- Năm 2003: Microsoft Outlook 2003 phát triển bộ lọc thư rác và thư lừa đảo

- Năm 2004: Ủy ban Thương mại Liên bang Mĩ ban hành đạo luật chống thư rác

- Năm 2006: Microsoft Outlook 2007 ra đời hỗ trợ việc duyệt tin qua RSS và nhậntin nhắn Cùng thời gian này mạng xã hội Facebook bắt đầu đi vào hoạt động trên quy môtoàn cầu, tạo ra sự liên kết giữa tài khoản Facebook với tài khoản thư điện tử

- Tháng 4/2007: Gmail đi vào hoạt động sau 4 năm chạy bản thử nghiệm

- Năm 2010:

+ Microsoft Outlook 2010 ra đời tích hợp Outlook Social Connector (hỗ trợnhận gửi thư với các mạng xã hội) bỏ qua hội thoại và dọn dẹp hội thoại.+ Outlook Mobile dành cho Windows Phone 7 và Outlook dành cho Mac

2011 ra đời

+ Mạng xã hội Facebook công khai kế hoạch kết hợp ứng dụng Microsoftnền web vào hệ thống tin nhắn mới

- Năm 2011: Hệ thống quy ước AP Stylebook của Hoa kì chính thức sử dụng chữ

“email” trên các phương tiện truyền thông thay cho “e-mail”

Trải qua các giai đoạn phát triển, hiện nay thư điện tử đang được cải tiến theo hướngthuận tiện, thân thiện hơn với người dùng thể hiện qua việc cải tiến giao diện người dùngcùng với đó là các chức năng bảo vệ thư điện tử ngày càng hiệu quả hơn

Ngày nay, thư điện tử không chỉ gửi thông tin dạng chữ mà nó còn có thể truyền cácdạng thông tin khác như: hình ảnh, âm thanh, phim,… đặc biệt là các phần mềm thư điện

Trang 12

tử kiểu mới còn có thể hiển thị các thư điện tử dạng sống động tương thích với kiểu tệpHTML.

Phần mềm thư điện tử (email software) là loại phần mềm nhằm hỗ trợ cho ngườidùng việc chuyển và nhận các mẫu thông tin Thông tin có thể đưa vào phần mềm thư điện

tử bằng cách thông dụng nhất là gõ chữ từ bàn phím, hoặc dùng máy quét hình ảnhscanner, máy ghi hình, webcam,… Phần mềm thư điện tử giúp việc soạn thảo, gửi, nhận,đọc, in, xóa hay lưu trữ các thư điện tử

Có hai loại phần mềm thư điện tử:

 Các phần mềm thư điện tử được cài đặt trên từng máy tính (email client), hayphần mềm thư điện tử cho máy khách

Ví dụ: Microsoft Outlook, Microsoft Outlook Express, Netscape Communicator,…

 Các phần mềm thư điện tử không cần cài đặt trên máy tính: Phần mềm loại nàyđược cung cấp bởi các máy chủ (web server) trên mạng Internet Để sử dụng được các phầnmềm loại này thường các máy tính nối vào phải có một máy truy cập tương thích với sựcung ứng của Webmail

Ví dụ: Mail.Yahoo.com hay Hotmail.com,…

Các dịch vụ thư điện tử có thể được cung ứng miễn phí hoặc có phí tùy theo nhu cầu

và mục đích của người dùng Ngày nay, thư điện tử thường được cung cấp kèm với cácphương tiện Internet khi người tiêu dùng ký hợp đồng với các dịch vụ Internet một cáchmiễn phí

1.1.3 Lợi ích của thư điện tử

Tốc độ gửi/nhận nhanh: Thư điện tử được chuyển qua đường Internet dưới dạng cáctín hiệu điện nên tốc độ di chuyển gần như là tức thời Với các bức thư tín bình thườngchúng ta có thể mất một vài ngày để thư có thể tới được địa chỉ cần thiết nhưng với thưđiện tử người nhận dường như không cần chờ đợi

Chi phí không đáng kể: Với các bức thư tín bình thường, ta phải tốn một khoản chiphí khá lớn khi gửi các bức thư của mình Còn với thư điện tử, ta chỉ tốn một khoản phí rất

Trang 13

nhỏ để kết nối Internet cùng với chi phí cho dịch vụ thư điện tử Hiện nay, dịch vụ thư điện

tử hầu hết được cung cấp miễn phí

Không có khoảng cách: Với thư điện tử, người nhận cho dù ở xa thì việc gửi vànhận thư đều được thực hiện gần như ngay lập tức Chi phí cho các bức thư đó cũng đềunhư nhau và không đáng kể

1.1.4 Cấu trúc chung và các giao thức gửi, nhận thư điện tử

1.1.4.1 Cấu trúc hệ thống thư điện tử

SMTP (via internet)

System call

SMTP (Direction connection)

SMTP

System call Đọc, viết POP/IMAP

Hình 1.1 Cấu trúc hệ thống thư điện tử

Để thực hiện việc trao đổi thư với người dùng, giữa máy chủ và các máy kháchthống nhất sử dụng chung một bộ giao thức gửi và nhận thư, trong đó quy định cụ thể vềcổng làm việc, quy trình thao tác, các câu lệnh trao đổi, cấu trúc của thư điện tử Mô hìnhtrên mô tả một hệ thống thư điện tử với giao thức gửi thư SMTP và giao thức nhận thưPOP hoặc IMAP

MUA gửi

MTA chuyển tiếp

TCP MDA

Mail retrieval Agent MTA nhận

MUA nhận Hộp thư

MDA cục bộ

Trang 14

- MRA (Mail Retrieval Agent): là một chương trình hoặc một dịch vụ có chức nănglấy thư điện tử về từ một hộp thư trên một máy chủ ở xa và đưa chúng tới một MUA CácMRA truy vấn các thư và các phần header từ những hộp thư ở xa và phân phát chúng tớicác MUA trên máy của người dùng.

1.1.4.2 Cấu trúc của thư điện tử

Một thư điện tử thường có hai phần chính : phần đầu (Header) và phần thân (Body)

là văn bản chứa nội dung của thư Khi gửi đi, toàn bộ thư điện tử được gói trong nội dung(content) Ngoài ra, hệ thống thư còn tạo thêm một phần nữa gọi là bì thư (envelope) chứacác thông tin cần thiết cho việc chuyển thư đến nơi nhận

1.1.4.3 Cấu trúc của một địa chỉ thư điện tử

Một địa chỉ thư điện tử gồm ba phần chính dạng:

Tên_định_dạng_thêm Tên_truy_cập@Địa_chỉ_máy_chủ_thư

- Thành phần: Tên_định_dạng_thêm: Đây là một dạng tên để người đọc có thể dễ

dàng nhận ra người gửi hay nơi gửi Tuy nhiên, trong các thư điện tử người ta thườngkhông cần tên định dạng thêm và lá thư điện tử vẫn được gửi đi đúng nơi

Ví dụ: Su_pham_tin spt@gmail.com có thể viết địa chỉ thư là: spt@gmail.com lúcnày phần mềm thư điện tử vẫn hoạt động chính xác và gửi đến đúng địa chỉ

- Phần Tên_truy_cập: là phần xác định hộp thư Do người đăng ký hộp thư đặt và cần phải nhớ rõ phần tên này Phần này còn gọi là: phần tên địa phương.

- Phần Địa_chỉ_máy_chủ_thư: là địa chỉ máy chủ của nhà cung cấp dịch vụ thư điện

tử Giữa Tên_truy_cập và Địa_chỉ_máy_chủ_thư ngăn cách nhau bởi kí tự @

Trang 15

Ví dụ: khoatoan11@gmail.com; suphamtn@yahoo.com; thpttn@hotmail.com;…1.1.4.4 Một số giao thức sử dụng để gửi và nhận thư điện tử

Hệ thống thư điện tử được xây dựng dựa trên một số giao thức: SMT, Post OfficeProtocol (POP), Multipurpose Internet Mail Extensions (MIME) và Interactive Mail

Access Protocol (IMAP) được định dạng trong RFC 1176 là một giao thức quan trọng để

thay thế POP, nó cung cấp nhiều cơ chế tìm kiếm văn bản, phân tích tin nhắn từ xa mà takhông nhìn thấy trong POP

 Một số giao thức gửi thư điện tử

- Giao thức SMTP: Là giao thức truyền tin tin cậy, chịu trách nhiệm phân phát thưđiện tử từ hệ thống mạng này sang hệ thống mạng khác, chuyển thư trong hệ thống mạngnội bộ Hầu hết các hệ thống thư điện tử gửi thư qua Internet đều dùng giao thức này Cácmẫu thông tin có thể được lấy ra bởi một email client Những email client này phải dùnggiao thức POP hay giao thức IMAP

- Giao thức X.400: là giao thức được ITU-T và ISO định nghĩa nó đã được ứng dụng

rộng rãi ở Châu Âu, Canada X.400 cung cấp tính năng điều khiển và phân phối thư điện

tử, sử dụng định nghĩa dạng nhị phân, do đó không cần mã hóa nội dung khi phân phát thưtrên mạng Internet

 Một số giao thức nhận thư điện tử

Có hai giao thức chính thường được dùng bởi các ứng dụng máy thư khách để truycập thư từ các máy chủ: Post Office Protocol (POP) và Internet Message Access Protocol(IMAP)

- Giao thức POP: là giao thức được thiết kế để hỗ trợ tiến trình thư “offline”, trongtiến trình này thư điện tử được phân phát tới một máy chủ Một máy tính cá nhân ngườidùng gọi định kỳ một chương trình thư khách được kết nối tới máy chủ và tải tất cả thư treo

đó tới máy tính của người dùng Cách truy cập offline là một loại dịch vụ store-to-forward,

được sử dụng để chuyển thư từ máy chủ thư tới máy của người đọc thư

- Giao thức IMAP: là một giao thức chuẩn cho việc truy cập thư điện tử từ máy chủthư cục bộ Là một giao thức chủ/khách trong đó thư điện tử được nhận và duy trì bởi máychủ thư Với những yêu cầu này chỉ một trao đổi dữ liệu nhỏ làm việc tốt thậm trí qua một

Trang 16

kết nối chậm như một modem Chỉ khi người dùng yêu cầu đọc một thư điện tử cụ thể thì

nó sẽ được tải về từ máy chủ thư đó Người dùng có thể tạo và chế tác các thư mục hoặccác hộp thư trên máy chủ, xóa tin nhắn,…

1.2 Tổng quan về thư rác

1.2.1 Lịch sử

Lịch sử thư rác có thể chia thành ba giai đoạn

1.2.1.1 Giai đoạn thứ nhất - những năm đầu của thư rác

Nhiều ý kiến cho rằng thư rác đầu tiên được phát tán trên mạng diện rộng vào năm

1978, đó là một quảng cáo từ Digital Equipment Corporation (DEC) [5] nhà sản xuất máytính mini hàng đầu thế giới Do dịch vụ thư điện tử lúc này chưa tiên tiến nên người pháttán thư rác (spammer) phải đánh thủ công các địa chỉ thư điện tử muốn gửi và có khoảng

320 trong tổng số các địa chỉ thư điện tử mà spammer muốn gửi nhận được thư rác nàytrong lần phát tán đầu tiên Vào 1988 xuất hiện kiểu thư rác khác là thư rác lừa đảo (nhưlừa đảo làm việc từ thiện, lừa đảo về kiếm tiền)

1.2.1.2 Giai đoạn thứ hai - thư rác được gửi thông qua phần mềm

Đầu thập niên 1990, với sự phát triển của Internet gây ra vấn nạn thư rác với số tănglên nhanh chóng Lúc này các spammer dùng các phần mềm để gửi tự động thư rác đếnmột danh sách nhiều địa chỉ

Ví dụ: thư rác Jesus, Cantel và Siegel

Vào 1995 Jeff Slaton - tự nhận mình là “vua thư rác”, ông là một trong những ngườiđầu tiên kiếm lợi nhuận từ các thư rác mà ông gửi đi, ông còn ép buộc các nạn nhân củamình trả phí nếu không muốn nhận thư rác Việc làm của ông tạo ra ý tưởng cho các công

ty thương mại là thuê những người như Jeff Slaton để phát tán thư điện tử với mục đích làquảng cáo giúp họ

1.2.1.3 Giai đoạn thứ ba - phần mềm chống thư rác chống lại các phần mềm gửi thư rác

Vào 1996 xuất hiện các phần mềm chống thư rác đầu tiên như Spamblock, InternetDeath Penalty, tuy nhiên vẫn không làm giảm sự phát triển của thư rác Các địa chỉ thưđiện tử của người dùng được bán cho các công ty, tổ chức muốn thực hiện quảng cáo trên

Trang 17

thư điện tử Và từ 1997 sự phát triển của thư rác đã vượt quá sự kiểm soát, một thống kêcho thấy 97% tổng số thư điện tử được gửi trên mạng là các thư người nhận không mongmuốn [6].

1.2.2 Định nghĩa

Có nhiều tranh cãi về định nghĩa chính xác của thư rác (spam email), bởi vì thư rácmang tính cá nhân hóa nên khó mà nói lên được hết ý nghĩa của thư rác Nhiều ý kiến cho

rằng thư rác là những “thư điện tử không mong muốn” Định nghĩa này cũng không thực sự

chính xác, như một nhân viên nhận những thư điện tử về công việc từ sếp của họ, đây lànhững thư điện tử người nhân viên không mong muốn nhưng chúng không phải là thư rác.Lại có ý kiến khác cho rằng thư rác là những “thư điện tử thương mại không được yêu cầu

từ phía người nhận” những thư này bao gồm các thư điện tử quảng cáo về các sản phẩm vàthư điện tử lừa gạt Nhưng định nghĩa này cũng không thực sự chính xác

Sau đó có ý kiến cho rằng thư rác là “số lượng lớn thư điện tử không yêu cầu” và

trong số đó các thư điện tử quảng cáo, thương mại chiếm đa số, đây có thể là định nghĩagần đúng với ý nghĩa của thư rác nhất [7]

1.2.3 Mục đích gửi thư rác

Mục đích chính của việc gửi thư rác:

- Quảng cáo sản phẩm, hàng hóa, dịch vụ,… của tổ chức, công ty thương mại hay cánhân nào đó

- Lợi dụng sự tin tưởng của người dùng để lừa gạt như các hình thức thanh toán trựctuyến

- Phát tán virus, mã độc hại kèm theo thư điện tử xâm nhập vào các máy nhận thưrác nhằm đánh cắp thông tin, phá hoại tài liệu, phá hủy hệ thống phần mềm

- Tuyên truyền những luận điệu sai trái, văn hóa không lành mạnh, nói xấu chế độchính trị

1.2.4 Các đặc tính của thư rác

Thư rác có các đặc tính cơ bản sau:

- Mang tính tương đối vì nó mang tính cá nhân, có thể một thư điện tử này là vô bổvới người này nhưng lại có lợi với người khác

Trang 18

- Tính bất biến trong một thư rác thể hiện ở những từ, cụm từ hầu như không thayđổi trong những lần spam.

- Đặc tính phần header của thư rác [6]:

+ Địa chỉ thư điện tử của người nhận sẽ không được thể hiện ở trường “To:”hay “Cc:” vì địa chỉ này sẽ được ẩn trong trường “Bcc” Người gửi thư rácthực hiện hành động này để giấu số lượng lớn các địa chỉ thư điện tử màngười gửi thư rác muốn gửi

+ Để nội dung trống hoặc thiếu trường “To”

+ Nội dung trường “From:” giống trường “To:”

+ Thiếu trường “From:”

+ Định danh –ID của thư điện tử bị thiếu hoặc bị làm giả

+ Trường “Bcc:” có tồn tại vì ở các thư điện tử thông thường trường nàythường không xuất hiện

+ Trường “X-mailer” là trường thể hiện tên phần mềm dùng để gửi thư điện tử,nếu trường này bao gồm tên của phần mềm gửi thư rác quen thuộc thì có thểxác định được là thư rác hay không

+ X-UIDL header: là một định danh duy nhất được sử dụng bởi các giao thứcPOP để lấy thư điện tử từ một máy chủ thư điện tử Nó thường được thêmvào giữa các máy chủ thư điện tử của người nhận và phần mềm thư điện tửcủa người nhận, nếu thư đến tại các máy chủ thư điện tử mà xuất hiện trườngnày thì là thư rác

+ Tồn tại các dòng mã lệnh hoặc khoảng trắng tuần tự Ví dụ như thêm mã lệnhtrên chủ đề của thư và dùng khoảng trắng để giấu

+ Tồn tại các dòng mã HTML không đúng quy tắc

- Nội dung của thư thường chứa các từ như: khuyến mãi, kiếm tiền nhanh, free, …

- Giống nhau ở kích thước/ loại tệp tin/ tên tệp tin đính kèm thư rác ở các lần spam

Trang 19

1.2.5 Các kĩ thuật tạo thư rác

1.2.5.1 Chỉnh sửa phần header của thư rác

- Nhập địa chỉ của các người nhận thư rác vào trường “Bcc:” thay vì trường “To:”hoặc “Cc”

- Thể hiện ở trường “To:” các địa chỉ thư điện tử không hợp lệ để đánh lừa ngườinhận

- Dùng mã HTML và khoảng trắng để che dấu thông tin nhằm mục đích đánh lừangười nhận

1.2.5.2 Chỉnh sửa phần nội dung của thư rác

- Gửi cùng một văn bản thư rác nhiều lần mà không có gì thay đổi

- Đảo nội dung, xóa bớt hoặc thêm một số đoạn văn bản trong lần gửi tiếp theo

- Thay đổi cách dùng từ, hình thức mà không làm thay đổi nội dung thư rác

- Thêm các thẻ HTML vào văn bản thư rác để vượt qua các phần mềm lọc thư rác

- Dùng hình ảnh thay văn bản để tránh các phần mềm lọc thư rác thông qua văn bản(biến dạng chữ để tránh nhận dạng kí tự quang học)

Dựa vào các đặc tính của thư rác và các thủ thuật tạo thư rác của các spammer,người ta đã và đang nghiên cứu xây dựng các kĩ thuật lọc thư rác nhằm mục đích ngănchặn phán tán thư rác sao cho hiệu quả nhất

1.2.6 Các kĩ thuật phát hiện và ngăn chặn thư rác

1.2.6.1 Kĩ thuật blacklisting

Một blacklist là một danh sách chứa thông tin các địa chỉ thư điện tử hay địa chỉ IP

bị cho là địa chỉ phát tán thư rác Blacklist còn được gọi là danh sách blackhole Hiện naytrên thế giới có nhiều tổ chức chuyên về lĩnh vực thu thập và cung cấp blacklist của cácmáy chủ thư điện tử được kẻ phát tán thư rác sử dụng

Có nhiều loại danh sách blacklist khác nhau (IP blacklist, DNS blacklist, emailblacklist) đưa đến nhiều mức độ lọc khác nhau trong mạng Mỗi blacklist có một tập luật

và điều kiện khác nhau để xác định thư rác Một vài danh sách quá khắt khe, quá nhiềuđiều kiện dẫn đến rủi ro các thư điện tử hợp lệ bị mất rất cao

Trang 20

Các danh sách blacklist có hai hạn chế quan trọng là [7]:

- Thời gian lan truyền: Các danh sách blacklist sẽ thêm các địa chỉ mạng vào danhsách của nó chỉ khi mạng đó được dùng để phát tán thư rác Trước đây việc thêm các mạng

đó vào danh sách làm việc tốt do kẻ phát tán thư rác khá bị động Nhưng ngày nay kẻ pháttán thư rác có thể đánh cắp tài khoản dialup, sử dụng các máy trung gian giúp gửi thư tạo racác host mới để gửi thư rác trước khi chúng được thêm vào danh sách blacklist

Nhiều danh sách đã bắt đầu blacklist không gian địa chỉ người dùng dialup và ISDN

để chống lại các host phát tán thư rác mới này Tuy nhiên nỗ lực này gặp phải vấn đề lớn làkhông gian địa chỉ này thường xuyên thay đổi

- Chất lượng duy trì các danh sách blacklist: Nhiều danh sách blacklist hiện nayđược duy trì kém Kết quả là một số mạng hợp lệ bị thêm vào blacklist không bao giờ bịxóa, hay chậm xóa Những vấn đề này làm cho một số blacklist rất không được tin cậy dochúng khóa cả những thư điện tử hợp lệ

 Một số ưu – nhược điểm

+ Tốn nhiều công sức để duy trì danh sách blacklist

Chỉ nên dùng các blacklist tin cậy được cập nhật thường xuyên và chỉ nên blacklist các địachỉ biết chắc là nơi phát tán thư rác

Trang 21

Whitelisting ngược với blacklisting, nó sử dụng một danh sách tin cậy Theo mặcđịnh mọi người sẽ bị blacklist trừ khi họ có tên trong danh sách whitelist.

Điểm khác biệt lớn nhất giữa kĩ thuật whitelisting và các kĩ thuật lọc nội dung là các

kĩ thuật lọc nội dung được dùng để xác định thư rác, còn whitelisting được dùng để xácđịnh người gửi rõ ràng Hầu hết các whitelist được quản lý riêng bởi mỗi người dùng vì sốlượng thư điện tử hợp lệ rất là lớn

Kĩ thuật whitelisting có độ chính xác cao vì nó chỉ cho phép những địa chỉ rõ ràng điqua Điều này là một lợi thế lớn, nhưng cũng có một số bất lợi vì tất cả thư điện tử củangười lạ đều bị loại bỏ nên các thư điện tử hợp lệ từ những người muốn liên lạc với mộtngười dùng nào đó cũng sẽ bị loại bỏ Có một số cách để khắc phục nhược điểm này:

- Tạo ra whitelist các địa chỉ thư điện tử và một địa chỉ thư đặc biệt dùng để gửi tớingười gửi chưa được whitelist

- Một cách khác liên quan đến việc điều tiết người gửi (giới hạn tốc độ và số lượngthông điệp một người chưa được whitelist có thể gửi) và gửi đi một challenge/response [7]

 Một số ưu – nhược điểm

- Ưu điểm:

+ Kết quả có độ chính xác cao

+ Không phải dựa trên việc học nội dung thông điệp

- Nhược điểm:

+ Có thể giả mạo địa chỉ trong danh sách whitelist

+ Tất cả người dùng phải được tin cậy mới có thể gửi thư vào inbox được

+ Người dùng cần phải cấu hình danh sách whitelist một cách thủ công

Kĩ thuật này phù hợp cho những người dùng cần độ chính xác cao mà không bận tâm đếnrủi ro có thể mất các thư điện tử

1.2.6.3 Kĩ thuật heuristic filtering

Phương pháp lọc heuristic được phát triển vào cuối năm 1990 Phương pháp này sửdụng một tập các luật thông dụng nhằm nhận dạng tính chất của thư rác cụ thể nào đó Cáctính chất này có thể nằm trong nội dung hoặc có được do quan sát cấu trúc cụ thể đặc thùcủa thư rác Không giống như các bộ lọc trước, bộ lọc heuristic có các luật để phát hiện cả

Trang 22

thư rác lẫn thư hợp lệ Các thông điệp chỉ có một ít tính chất là thư rác có thể được xem làthư hợp lệ nếu ta không thiết lập cảnh báo cho trường hợp này.

Heuristic filtering làm việc dựa trên hàng ngàn luật được định nghĩa trước [9], mỗiluật đều được gán một điểm số để biết xác suất thông điệp có phải là thư rác hay không.Kết quả cuối cùng của biểu thức gọi là Spam score Spam score để đo mức độ của thư rác(thấp, trung bình hay cao) Thiết lập mức độ càng cao thì càng lọc được nhiều thư rác, tuynhiên tỉ lệ false-positive (không phải là thư rác nhưng cho là thư rác) cũng sẽ tăng do cácthư điện tử hợp lệ bị coi là thư rác cũng nhiều hơn Dựa vào Spam score và một ngưỡngxác định thì các thông điệp được phân lớp thành thư rác, thư hợp lệ và thư chưa xác định

Tuy nhiên cũng có ngoại lệ cho luật này:

- Các thông điệp từ người gửi trong whitelist không bao giờ bị coi là thư rác

- Các thông điệp từ người gửi trong blacklist luôn bị coi là thư rác

Heuristic filtering có hai điểm yếu làm giảm hiệu quả của nó [7]:

- Điểm yếu chính xuất phát từ lý do tập luật được thiết kế để mọi người sử dụng Do

đó cần phải cắt giảm một số luật để tránh một số lỗi false-positive quan trọng Kết quả làphiên bản đầu tiên của Spam Assassin có một tỉ lệ lỗi là 1/10 thông điệp, các phiên bản saunày cải thiện chỉ còn 1/20 thông điệp, đạt độ chính xác khoảng 95%

- Điểm quan trọng hơn là mọi người sử dụng chung một tập các luật, cho nên cácspammer có thể học và thích nghi với các luật để vượt qua bộ lọc Do các tập luật và các cơchế gán điểm số hầu như không thay đổi, những kẻ phát tán thư rác có thể tải công cụheuristic phiên bản mới nhất và chạy thử thư rác của họ Khi chúng đã xác định được cácphần trong thư rác của mình tạo ra đã nằm trong tập luật của phần mềm thì chúng có thểthay đổi thông điệp đó để qua mặt các luật Kết quả là độ chính xác giảm nghiêm trọng,một vài nhà quản trị hệ thống cho biết trong một số trường hợp nó có thể giảm xuống 40%

Độ chính xác sẽ tăng khi bộ lọc được thêm các tập luật mới nhưng cũng sẽ nhanh chónggiảm khi những kẻ phát tán thư rác thích nghi với các tập luật này

Các vấn đề cần quan tâm trong kỹ thuật này [7]:

- Vấn đề duy trì: mặc dù nhiều bộ lọc heuristic rất hiệu quả trong việc giảm hơn85% thư rác, nhưng các tập luật cũng cần phải được cập nhật liên tục do sự tiến hóa của thưrác Spam Assassin sử dụng khoảng 900 đến 950 luật heuristic khác nhau, và tập luật mới

Trang 23

xuất hiện chỉ có thể duy trì độ chính xác trong khoảng thời gian ngắn Người quản trị hệthống không có thời gian để theo dõi 900 luật, vì thế trách nhiệm duy trì tập luật được giaocho những nhà duy trì phần mềm, và chúng ta cần phải cập nhật mỗi lần các luật mới đượcthêm.

- Vấn đề gán điểm số: một khuyết điểm nữa của cách tiếp cận heuristic là mỗi luậtđược gán một điểm số riêng, điểm số xác định độ quan trọng của luật trong việc phân tíchthông điệp Tuy nhiên, đối với mỗi người dùng độ quan trọng của mỗi luật khác nhau, cácđiểm số chỉ định nghĩa cho phần lớn cá nhân Khi thư rác tiến hóa, các điểm số khác có thểtốt hơn, do đó cần nhà quản trị hệ thống điều chỉnh lại ngưỡng xác định thư rác của bộ lọc.Nhưng có lẽ một vấn đề mơ hồ hơn là các điểm số đó không thể hiện một điều gì đó cụ thể,chúng chỉ là các con số và chúng không dựa vào một biểu thức toán học hay thống kê nào

 Một số ưu – nhược điểm

- Ưu điểm:

+ Độ chính xác cao hơn các phương pháp lọc thô sơ

+ Có thể dễ dàng phân phối các tập luật

- Nhược điểm:

+ Các tập luật cần được duy trì thường xuyên

+ Độ chính xác không tốt bằng các bộ lọc thống kê mới hơn

+ Những kẻ phát tán thư rác có thể sử dụng các tập luật để qua mặt bộ lọc

- Phương pháp này phù hợp với các nhà quản trị hệ thống có thể chấp nhận tỉ lệ lỗi lớnhơn 5% với độ chính xác thường xuyên thay đổi

1.2.6.4 Kĩ thuật học máy

Học máy (Machine Learning) là một lĩnh vực nghiên cứu của trí tuệ nhân tạo

Các định nghĩa về học máy:

- Là một quá trình nhờ đó một hệ thống cải thiện hiệu quả hoạt động của nó

- Là một quá trình mà một chương trình máy tính cải thiện hiệu suất của nótrong một công việc thông qua kinh nghiệm

- Việc lập trình các máy tính để tối ưu hóa một tiêu chí hiệu suất dựa trên các

dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ

Trang 24

Biểu diễn một bài toán học máy:

- Học máy là việc cải thiện hiệu quả một công việc thông qua kinh nghiệm:

+ Một công việc hay nhiệm vụ T

+ Đối với các tiêu chí đánh giá hiệu năng P

+ Thông qua kinh nghiệm E

- Bài toán học máy lọc thư rác:

+ T: Dự đoán những thư điện tử nào là thư rác

+ P: Phần trăm của các thư điện tử gửi đến được phân loại chính xác

+ E: Một tập các thư điện tử mẫu, mỗi thư điện tử được biểu diễn bằng một tậpthuộc tính và nhãn lớp (thư thường/thư rác) tương ứng

 Một số ưu – nhược điểm

- Ưu điểm:

+ Khả năng thích nghi cao với sự tiến hóa rất nhanh của thư rác

+ Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một tập dữ liệuriêng, chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể

- Nhược điểm: Phải mất một khoảng thời gian đầu huấn luyện cho bộ lọc

Bạn đọc muốn tìm hiểu kĩ hơn các kĩ thuật trên và một số kĩ thuật khác có thể tìm đọctrong tài liệu [7]

1.2.7 Cơ sở dữ liệu thống kê thư rác

Những số liệu về thư rác đã được những chuyên gia, những tổ chức hoạt động tíchcực bằng những phương pháp khác nhau đã thống kê, xây dựng các cơ sở dữ liệu về thư rácnhằm mục đích cung cấp thông tin, tạo nguồn dữ liệu thử nghiệm cho việc thiết kế các bộlọc thư rác thông qua các kĩ thuật phát hiện và ngăn chặn thư rác

1.2.7.1 Spambase Data Set

Cơ sở dữ liệu này bao gồm các số liệu thống kê về cả thư thường và thư rác.Spambase Data Set chứa kết quả của một cuộc tổng hợp của các chuyên gia về các thư rác

từ bưu điện và cá nhân nhận được thư rác Spambase Data Set có chứa các số liệu thống kê

về 58 thuộc tính của 4601 thư điện tử

Trong 58 thuộc tính của cơ sở dữ liệu này:

Trang 25

- Có 48 thuộc tính đầu “word_freq_” nói về tỉ lệ phần trăm các từ trong thư phù hợpvới nội dung của thuộc tính nhắc đến.

Ví dụ: word_freq_address là tỉ lệ phần trăm các từ trong thư phù hợp với địa chỉ gửi

- 6 thuộc tính tiếp theo “char_freq_” là tỉ lệ phần trăm các kí tự trong thư phù hợpvới kí tự nhắc đến trong thuộc tính

Ví dụ: char_freq_! : chỉ tỉ lệ phần trăm kí tự ‘!’ có trong thư điện tử

- 3 thuộc tính tiếp theo:

+ Capital_run_length_average: Chiều dài trung bình không bị gián đoạn củachuỗi chữ viết hoa

+ Capital_run_length_longest: Chiều dài lớn nhất không bị gián đoạn củachuỗi chữ viết hoa

+ Capital_run_length_total: Tổng số lượng chữ in hoa trong email

- Thuộc tính cuối dùng là thuộc tính class (phân lớp) nhận giá trị 0 hoặc 1 tương ứngvới một email là thư thường hoặc thư rác

Danh sách 58 thuộc tính trong cơ sở dữ liệu:

Trang 26

Số lượng thư điện tử thu thập được là rất lớn, cung cấp dữ liệu cho việc xây dựngcác kĩ thuật lọc thư rác.

Ngoài ra, còn nhiều bộ dữ liệu khác như Enron Email Dataset, Smspamcollection,ECML-PKDD, Lingspam, Vì mục đích thử nghiệm, nên chúng tôi sẽ sử dụng spambasevới đặc tính nhỏ gọn, đã chuẩn hóa trong đề tài này

1.3 Kết luận

Ngày nay, hầu hết người dùng Internet đều có hộp thư điện tử cho riêng mình, để cóthể sử dụng các dịch vụ giải trí, kinh doanh, … trên Internet Tuy nhiên nhiều người, tổchức lại sử dụng thư điện tử để thực hiện những hành vi xấu, đặc biệt là việc phát tán thưrác với nhiều mục đích khác nhau gây ra nhiều tác hại Do vậy, nhiều phần mềm lọc thư rácđược ra đời, giúp hạn chế việc lưu hành của thư rác

Trong chương 2, trình bày nội dung phương pháp sử dụng hệ miễn dịch nhân tạo đểxây dựng phần mềm lọc thư rác

Trang 27

Chương 2 TỔNG QUAN VỀ HỆ MIỄN DỊCH SINH HỌC

VÀ HỆ MIỄN DỊCH NHÂN TẠO

Chương này trình bày tổng quan về hệ miễn dịch sinh học: khái niệm, các tầng bảo

vệ của hệ miễn dịch sinh học; tổng quan về hệ miễn dịch nhân tạo: khái niệm, mô hình và các thuật toán trong hệ miễn dịch nhân tạo Phương pháp sinh bộ dò sử dụng bảng băm.

2.1 Tổng quan về hệ miễn dịch sinh học

2.1.1 Khái niệm

Hệ miễn dịch sinh học là tập hợp tất cả các cơ chế sinh học giúp cho một cơ thể đabào giữ được sự liên kết giữa các tế bào và các mô, đảm bảo sự toàn vẹn của cơ thể bằngcách loại bỏ những thành phần bị hư hỏng cũng như các chất và sinh vật xâm hại Chứcnăng bảo vệ cơ thể bao gồm hai loại cơ chế miễn dịch, lần lượt xuất hiện trong quá trìnhtiến hóa của các loài và liên hệ chặt chẽ với nhau ở các động vật bậc cao [2]

2.1.2 Các tầng bảo vệ của hệ miễn dịch sinh học

Hình 2.2 Các tầng hệ miễn dịch sinh học

Trang 28

HMD sinh học có thể coi như một cấu trúc phân tầng với cơ chế điều khiển và bảo

vệ ở các mức:

- Mức vật lý (Physical Barriers) gồm lớp DNA và màng nhầy nằm ở các tuyến hôhấp và tiêu hóa chứa đại thực bào (Macrophage) và kháng thể ngăn không cho những chất

lạ xâm nhập vào cơ thể

- Mức sinh hóa (Biochemical Barriers): Các chất lưu như nước bọt, mồ hôi, nướcmắt chứa những enzym có thể loại bỏ kháng nguyên Các axit trong vùng DNA cùng vớinhiệt độ của cơ thể cũng ngăn cản sự sống và kháng sinh của kháng nguyên

Với cấu trúc phân tầng và bảo vệ ở các mức vật lý và sinh hóa, trong cơ thể sinh họccác loài vật tự bảo vệ cơ thể bằng hai dạng HMD: HMD bẩm sinh và HMD thích nghi

- HMD bẩm sinh: Là HMD mà cơ thể sinh vật tự hình thành khi sinh ra và trong suốtquá trình sinh trưởng, phát triển của cơ thể, tuy nhiên HMD bẩm sinh còn có hạn chế đặcbiệt là việc HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinh đối vớicác vi sinh vật xâm nhập vào cơ thể lần thứ hai không có gì khác so với lần thứ nhất

Hoạt động dựa vào bạch cầu huyết là đại thực bào và bạch cầu trung tính (có chứcnăng nuốt và tiêu diệt các vi trùng, tạo ra một cơ chế bảo vệ quan trọng chống lại các bệnhtruyền nhiễm) Những bạch huyết này có các cơ quan thụ cảm trên bề mặt, chúng có thểnhận diện và bám vào các phần tử gây bệnh

- HMD thích nghi: Là HMD được cơ thể sinh vật hình thành, phát triển, tái tạo trongquá trình phát triển của cơ thể và trong quá trình tác động với môi trường sống HMD thíchnghi có khả năng ghi nhớ các loại vi sinh vật lạ xâm nhập nên việc miễn dịch, bảo vệ cơthể sinh vật tốt hơn so với HMD bẩm sinh

Hoạt động với các thành phần chính là các lymphô bào (Lymphocyte – là một loạibạch cầu) bao gồm B - cell và T - cell Các B - cell và T - cell trên bề mặt của chúng cónhững cơ quan thụ cảm chuyên dụng cho một loại kháng thể nào đó Khi kháng nguyênxâm nhập vào cơ thể các cơ quan thụ cảm trên bề mặt của lymphô bào sẽ kết hợp vớikháng nguyên làm cho các lymphô bào này được kích hoạt và thực hiện quá trình nhânrộng, đột biến sau đó tạo ra những kháng thể thích hợp có khả năng nhận diện và loại bỏkháng nguyên Một số lymphô bào sẽ trở thành tế bào có khả năng ghi nhớ lưu thông trong

cơ thể Khi có loại kháng nguyên tương tự lây nhiễm, thì HMD thích nghi có thể nhanh

Trang 29

chóng phát hiện và loại bỏ chúng Khả năng này giúp cho cơ thể không mắc lại những bệnh

cũ, do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoàn thiện sau mỗi lần đụng độvới kháng nguyên

Hình 2.3 Một số bộ phận của HMD sinh học

Trong quá trình chọn lọc các tế bào B - cell và T - cell, HMD thích nghi không chỉphải chọn những tế bào có khả năng nhận biết những tế bào lạ (antigen hay nonself), mà nócòn phải loại bỏ những tế bào nhận biết được những tế bào do cơ thể tạo ra (self - antigenhay self), tương ứng với hai khả năng trên là quá trình chọn lọc tích cực và quá trình chọnlọc tiêu cực

Chọn lọc tích cực: Phép chọn lọc tích cực đối với các Lymphô bào (T cell và B cell) nhằm mục đích tránh sự xuất hiện của các Lymphô bào không có ích Những Lymphôbào mà cơ quan thụ cảm của chúng không có khả năng nhận diện được kháng nguyên Kếtquả cuối cùng là những Lymphô bào có khả năng nhận diện được kháng nguyên

Chọn lọc tiêu cực: Phép chọn lọc tiêu cực của các lymphô bào nhằm mục đích loại

bỏ những lymphô bào mà cơ quan thụ cảm của nó nhận diện được các tế bào do cơ thể tạo

ra và nó có thể tiêu diệt những tế bào này

HMD thích nghi được nghiên cứu áp dụng nhiều trong xây dựng HMD nhân tạo

Ngày đăng: 24/07/2016, 11:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4] Vũ Thị Nguyệt Thu, (2014), Sinh tập bộ dò đầy đủ không dư thừa trong hệ miễn dịch nhân tạo, Luận văn Tốt Nghiệp, ĐH Sư phạm Thái Nguyên.2. Tiếng Anh Sách, tạp chí
Tiêu đề: Sinh tập bộ dò đầy đủ không dư thừa trong hệ miễn dịch nhân tạo
Tác giả: Vũ Thị Nguyệt Thu
Năm: 2014
[8] Nguyen Van Truong, Vu Thi Nguyet Thu, Trinh Van Ha, (2013), Combining negative Selection and positive Selection in artificial immune systems, Journal of Science and Technology, Thai Nguyen University, 106(6), 41-47 Sách, tạp chí
Tiêu đề: Combining negative Selection and positive Selection in artificial immune systems
Tác giả: Nguyen Van Truong, Vu Thi Nguyet Thu, Trinh Van Ha
Năm: 2013
[5] Goldszmidt D., Friedman, N.Geiger, Bayesian network Classifiers Machine Learning, 2006. e, 2003 Khác
[6] Mike Spy Kerman, Typical spam characteristics, Red Earth Softwar, 2003 Khác
[7] Jonathan, A.Zdziarski, Ending Spam: Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press, 2005 Khác
[9] Csaba Gulyás, Creation of a Bayesian network-based meta spam filter, using the analysis of different spam filters, 2006 Khác
[10] Forrest et al, Self-Nonself Discrimination in a Computer, (1994), in Proceedings of 1994 IEEE Symposium on Research in Security and Privacy, Oakland, CA, 202-212..3. Địa chỉ Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.. Cấu trúc hệ thống thư điện tử - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Hình 1.. Cấu trúc hệ thống thư điện tử (Trang 11)
Hình 2.. Các tầng hệ miễn dịch sinh học - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Hình 2.. Các tầng hệ miễn dịch sinh học (Trang 25)
Hình 2.. Một số bộ phận của HMD sinh học - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Hình 2.. Một số bộ phận của HMD sinh học (Trang 27)
Hình 3.. Giao diện chương trình - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Hình 3.. Giao diện chương trình (Trang 38)
Bảng 3.. Một số kết quả - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Bảng 3.. Một số kết quả (Trang 47)
Hình học. - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Hình h ọc (Trang 48)
Hình 3.. Giao diện phần mềm Weka - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Hình 3.. Giao diện phần mềm Weka (Trang 49)
Hình 3.. Giao diện Weka Explorer sau khi mở nạp Spambase - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Hình 3.. Giao diện Weka Explorer sau khi mở nạp Spambase (Trang 50)
Hình 3.. Phân loại dữ liệu - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Hình 3.. Phân loại dữ liệu (Trang 51)
Bảng 3.. Kết quả thử nghiệm trên WEKA và NSA - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Bảng 3.. Kết quả thử nghiệm trên WEKA và NSA (Trang 52)
Bảng .3. Kết quả NSA so với một số phương pháp cho kết quả tốt - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
ng 3. Kết quả NSA so với một số phương pháp cho kết quả tốt (Trang 53)
Bảng 3.. Kết quả của NSA so với một số phương pháp thấp hơn - Khóa luận tốt nghiệp ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác   lương văn lâm
Bảng 3.. Kết quả của NSA so với một số phương pháp thấp hơn (Trang 53)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w