1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx

64 588 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Mạng Thư Điện Tử Và Ứng Dụng Trong Lọc Thư Rác
Tác giả Bùi Ngọc Lan
Người hướng dẫn Tiến sĩ Trần Quang Anh, Tiến sĩ Hà Quang Thụy
Trường học Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ Thông tin
Thể loại khóa luận tốt nghiệp đại học
Năm xuất bản 2006
Thành phố Hà Nội
Định dạng
Số trang 64
Dung lượng 2,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong luận văn này, trên cơ sở nghiên cứu cấu trúc và các tính chất đặc trương của mạng thư điện tử Email Networks từ đó đề xuất một phương pháp lọc thư rác mới dựa trên mạng thư điện t

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: Tiến sĩ Trần Quang Anh

Cán bộ đồng hướng dẫn: Tiến sĩ Hà Quang Thụy

Hà Nội - 2006

Trang 3

LỜI CẢM ƠN

Đầu tiên, em muốn gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) và Tiến sĩ Hà Quang Thụy (Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội) đã tận tình chỉ bảo và hướng dẫn em trong suốt quá trình thực hiện khoá luận này

Em xin chân thành cám ơn các thầy lãnh đạo Viện CNTT - ĐHQGHN, anh Nguyễn Việt Cường (Trường Đại học Công nghệ - ĐHQGHN) và anh Phan Bá Hùng (Viện Công nghệ Thông tin - ĐHQGHN) đã giúp đỡ, tạo điều kiện thuận lợi để em tiến hành có kết quả các thử nghiệm trên mail-server thực

Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy, cô trong trường Đại học Công nghệ đã dạy dỗ và tận tình chỉ bảo cho em trong suốt quá trình học tập tại trường

Em cũng muốn gửi lời cảm ơn tới các thầy cô, anh chị và các bạn trong nhóm xê-mi-na “Khai phá dữ liệu và khám phá tri thức” thuộc bộ môn Các hệ thống thông tin, Trường Đại học Công nghệ đã ủng hộ và khuyến khích em trong quá trình nghiên cứu và thực hiện khoá luận này

Và lời cuối cùng, em xin gửi lời cảm ơn chân thành và biết ơn vô hạn tới bố, mẹ, anh chị những người đã có công sinh thành, nuối nấng, dạy dỗ và luôn động viên, khuyến khích em trong cuộc sống, trong học tập và làm việc

Sinh viên

Bùi Ngọc Lan

Trang 4

Tóm tắt

Vấn đề thư rác từ lâu đã gây không ít phiền nhiễu cho người sử dụng thư điện tử

và là vấn đề đau đầu của những người quản lý mạng Có rất nhiều giải pháp chống thư rác đã được đưa ra và áp dụng trong thực tế Tuy nhiên, các phương pháp này đều tỏ ra chưa thực sự hiệu quả và mang những nhược điểm cố hữu của nó Trong luận văn này,

trên cơ sở nghiên cứu cấu trúc và các tính chất đặc trương của mạng thư điện tử (Email

Networks) từ đó đề xuất một phương pháp lọc thư rác mới dựa trên mạng thư điện tử Khác với phương pháp lọc thư rác dựa trên mạng thư điện tử trước đây [1], phương pháp đưa ra đã khai thác được tính chất có hướng của đồ thị mạng thư điện tử và xem xét đồ thị mạng thư điện tử là đồ thị có trọng số để xây dựng một công thức tính độ phân cụm (clustering coefficient) mới Để kiểm chứng phương pháp đưa ra, khóa luận thực hiện thí nghiệm trên log files của máy chủ e-mail thực của Đại học Quốc gia Hà Nội Kết quả thực nghiệm cho thấy được tính đúng đắn của phương pháp và phương pháp này có thể khắc phục được nhiều nhược điểm cố hữu của các giải pháp trước đây

Trang 5

Mục lục

LỜI CẢM ƠN N 3

MỞ ĐẦU 8

CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC 10

1.1 Khái niệm thư rác 10

1.1.1 Thư rác là gì ? 10

1.1.2 Các đặc điểm của thư rác .11

1.1.3 Phân loại thư rác 12

1.1.4 Những thiệt hại do thư rác gây ra 13

1.2 Các giải pháp cho vấn đề lọc thư rác 16

1.2.1 Ban hành các bộ luật chống thư rác 16

1.2.2 Các phương pháp lọc thư rác trước đây 16

CHƯƠNG 2: KIẾN THỨC CƠ SỞ 26

2.1 Mạng phức hợp (Complex Networks) 26

2.1.1 Độ dài đường dẫn trung bình 30

2.1.2 Độ phân cụm 31

2.1.3 Độ phân bố bậc 31

2.2 Các mô hình của mạng phức hợp 33

2.2.1 Mạng cặp thông thường (Regular coupled networks) 33

2.2.2 Đồ thị ngẫu nhiên (Random Graphs) 34

2.2.3 Các mô hình Small-world 36

2.2.4 Các mô hình Scale-free 39

2.3 Mạng xã hội (Social Networks) 41

2.4 Mạng thư điện tử (Email Networks) 43

2.4.1 Mạng thư điện tử scale-free .43

2.4.2 Tính chất Small-world của mạng thư điện tử .44

2.4.3 Mạng thư điện tử là mạng có hướng 46

2.4.4 Sự lan rộng của virus trong mạng thư điện tử 48

2.4.5 Mạng thư điện tử khi bị spam tấn công 49

Trang 6

CHƯƠNG 3: ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ TRONG LỌC

THƯ RÁC 50

3.2 Đề xuất phương pháp 51

3.3 Đặc điểm của phương pháp 53

CHƯƠNG 4: THỰC NGHIỆM TRÊN LOG FILES 55

4.1 Đặc điểm dữ liệu 55

4.2 Kết quả thực nghiệm và phân tích 57

4.3 Nhận xét 60

KếT LUậN 61

Trang 7

Bảng từ viết tắt

Trang 8

MỞ ĐẦU

Ngày nay cùng với sự toàn cầu hóa việc kết nối thông tin, thư điện tử (Email)

đã trở thành một phần quan trọng trong đời sống và trong cả các hoạt động kinh doanh thương mại Thư điện tử cho phép tiết kiệm thời gian và khắc phục mọi vấn đề về khoảng cách địa lí, về chi phí trong trao đổi thông tin liên lạc Chính những thuận tiện trong trao đổi thư điện tử lại tạo ra một số sơ hở để cho các loại thư không mong muốn (thư rác: spam mail) hoạt động gây phiền toái cho người dùng Trong một vài năm gần đây, những thư điện tử không mong muốn như vậy phát triển và gây ra không ít thiệt hại cho người dùng nói riêng và cho nền kinh tế - xã hội nói chung Theo nhiều bản thống kê [10,15], thư rác đã chiếm tới ¾ tổng số thư điện tử lưu thông trên toàn thế giới Có không ít người dùng đã hạn chế sử dụng thư điện tử như một phương tiện liên lạc, và điều đó đã gây ra sự trở ngại đáng kể cho liên lạc giữa các người dùng cũng như hạn chế việc phát sinh lợi nhuận chính đáng của nền kinh tế nhờ phương tiện liên lạc này

Hiện nay, thư rác đang là một trong những vấn đề nhức nhối của xã hội Nhiều phương pháp, công cụ lọc thư rác đã được đề xuất, tuy nhiên nhìn chung các công cụ lọc thư rác hiện nay vẫn tỏ ra chưa thực sự hiệu quả Chính vì lý do đó, nhiều hướng tiếp cận lọc thư rác mới đã được đề xuất [39], kể cả các hướng tiếp cận kết hợp các phương pháp khác nhau, trong đó hướng tiếp cận theo mạng xã hội là một trong các hướng nổi bật nhất Ý thức được điều này, hướng nghiên cứu về các phương pháp lọc thư rác, tập trung theo hướng tiếp cận mạng thư điện tử đề tài của khóa luận với tên

gọi "Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác"

Khóa luận được tổ chức thành 4 chương như sau:

Chương 1 giới thiệu tổng quan về thư rác và một số hướng tiếp cận điển hình

trước đây trong việc lọc thư rác

Chương 2 trình bày về một số tính chất quan trọng của mạng phức hợp, mạng

xã hội, mạng thư điện tử Đây là cơ sở kiến thức để phát triển nội dung của khóa luận trong các chương sau

Chương 3 trình bày một phương pháp mới ứng dụng các tính chất của mạng

thư điện tử vào vấn đề lọc thư rác thông qua việc tính hạng phân cụm của các địa chỉ thư Các nội dung đề xuất được trình bày chi tiết trong chương này

Trang 9

Chương 4 trình bày về thực nghiệm tiến hành với logs file của máy chủ email

tại Đại học Quốc gia Hà Nội Kết quả thực nghiệm cho thấy địa chỉ thư với độ phân cụm thấp có khả năng cao là địa chỉ thư rác

Phần kết luận tổng kết các kết quả chủ yếu của khóa luận và phương hướng

nghiên cứu tiếp theo để phát triển, cải tiến phương pháp mạng thư điện tử được đề xuất

Cho dù đã cố gắng song không thể tránh khỏi những sai sót, em rất mong được sự góp ý của thầy cô và các bạn

Trang 10

Chương 1

TỔNG QUAN VỀ THƯ RÁC

Từ lâu, thư điện tử (Email) đã trở thành một ứng dụng không thể thiếu khi Internet và công nghệ mạng phát triển Đây là điều mà thực tế đã chứng minh qua những đóng góp của ứng dụng này trong nhiều lĩnh vực như kinh doanh, thương mại, viễn thông và các dịch vụ cá nhân Tuy nhiên trong những năm gần đây, một hình thức mới của thư điện tử đã xuất hiện với số lượng lớn gây phiền hà cho người nhận và những thiệt hại không nhỏ cho nền kinh tế gọi là thư rác Chương này sẽ khái quát các vấn đề về khái niệm thư rác, ảnh hưởng của thư rác trong cuộc sống của chúng ta và các phương pháp ngăn chặn thư rác

1.1 Khái niệm thư rác

họ

Về phía người nhận, đa phần các bức thư này không có giá trị và thật sự không được mong muốn, chúng bị coi như một thứ rác rưởi, tạp nham (xuất phát từ cụm junk email) Phần lớn các thư này có nội dung quảng cáo thương mại cho một loại sản phẩm hay dịch vụ nào đó, những bức thư này được gọi là UCE (Unsolicited Commercial Email)

Thư rác hiện nay thường có nội dung: quảng cáo thương mại và dịch vụ, quấy nhiễu, phát tán virus và những nội dung không lành mạnh (khiêu dâm, chống phá chính trị…)

Trang 11

Việc gửi thư rác làm cho người nhận phải mất thời gian và phải trả tiền cho nhà cung cấp dịch vụ Internet ISP (Internet Service Provider) để đọc những bức thư không liên quan Đôi khi những bức thư có chứa virus có thể phá hủy cả hệ thống dữ liệu trong máy tính Ngoài ra, tài nguyên (đường truyền, máy chủ) của ISP cũng bị chiếm dụng nhiều khi gửi thư rác

1.1.2 Các đặc điểm của thư rác

Các loại thư rác hiện nay có một số đặc điểm sau:

¾ Thư rác được gửi đi một cách tự động: Mục đích của những kẻ gửi thư rác

(spammer) là có thể phát tán lượng thư rác tới người dùng càng nhiều càng tốt

Do vậy, chúng thường viết ra những phần mềm tự động gửi một lượng lớn thư rác trong một khoảng thời gian ngắn

¾ Thư rác được gửi đến những địa chỉ ngẫu nhiên trên một diện rộng Địa chỉ

email của người bị nhận thư rác rất ngẫu nhiên và dường như giữa họ không có mối quan hệ với nhau Có nhiều phương pháp và thủ thuật khác nhau mà những

kẻ gửi thư rác áp dụng trong việc dò tìm địa chỉ email của người dùng như:

ƒ Dùng chương trình tự động dò tìm địa chỉ email trên mạng Internet, các trang chủ, Newsgroup, Chat room

ƒ Mua địa chỉ email từ những công ty đã xây dựng danh sách khách hàng của họ nhưng vì lý do nào đó phải bán đi hoặc đối tác của công ty được phép truy cập danh sách khách hàng của công ty này để gửi thông tin về dịch vụ hay sản phẩm

ƒ Email chuỗi (Chain letter) từ bạn bè và người thân, yêu cầu gửi thư cho càng nhiều người càng tốt vì lý do thương người, ủng hộ một chương trình nào đó, hoặc mời chào người dùng nếu gửi cho nhiều người sẽ được nhận nhiều tiền hơn

ƒ Dùng chương trình đoán tên tự động: Những kẻ gửi thư rác dùng chương trình này gửi email liên tục vào một nơi để đoán địa chỉ email qua những phương pháp như E-pending, Dictionary hay Alphabet

Bên cạnh đó, những kẻ gửi thư rác còn có thể có được địa chỉ email của người dùng do:

Trang 12

ƒ Các nhà cung cấp dịch vụ ISP không có chính sách và công nghệ bảo mật, dẫn đến các tin tặc (hacker) ăn cắp địa chỉ của khách hàng để buôn bán và quấy nhiễu Hoặc có thể do chính nhà cung cấp ISP buôn bán địa chỉ email của khách hàng để kiếm lợi nhuận Nhân viên của các ISP đã tiết lộ thông tin về khách hàng cho các đối thủ cạnh tranh của chính ISP

đó, hoặc cho những công ty muốn quảng cáo cho những khách hàng riêng biệt

ƒ Chính người dùng cung cấp địa chỉ email của mình qua những lần đăng

kí thành viên trên Internet hoặc trên giấy tờ các dịch vụ mà chẳng bao giờ dùng, những cuộc xổ số mà chẳng bao giờ biết quả, hoặc những bản tin điện tử (newsletter) vô nghĩa

¾ Nội dung của thư rác thường là những nội dung bất hợp pháp, gây phiền hà cho người dùng Phần lớn nội dung của thư rác là những thông tin mời chào về

thương mại, quảng cáo sản phẩm Bên cạnh đó, phải kể đến những thư rác có nội dung xấu (như khiêu dâm, chống phá chính trị ) gây tâm lý lo ngại cho người làm công nghệ thông tin Lượng thư rác phát tán virus cũng không nhỏ Trong những thư này thường được gắn kèm những con virus nguy hiểm có thể làm tê liệt hoàn toàn máy tính của người dùng, ăn cắp những thông tin cá nhân hoặc làm hỏng dữ liệu lưu trên máy Hiện nay, những thư rác với nội dung hứa hẹn mang đến một khoản tiền lớn cho người đọc thư rác đã tăng nhanh Những

người dùng kém hiểu biết, cả tin thường bị lừa bởi hình thức này

¾ Địa chỉ của người gửi thư rác thường là những địa chỉ trá hình Để tránh sự

nghi ngờ của người nhận, một số kẻ gửi thư rác thường giả dạng địa chỉ của một người dùng bình thường trong một máy chủ email nào đó một cách bất hợp pháp hoặc dùng một địa chỉ ảo nào đó để gửi thư rác

1.1.3 Phân loại thư rác

Việc phân loại thư rác rất quan trọng không chỉ trong lĩnh vực tạo những bộ lọc thư rác phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thư rác thích hợp

Có rất nhiều cách phân loại thư rác Dưới đây là một số loại điển hình nhất

1> Dựa trên kiểu phát tán thư rác

Trang 13

Tính tới thời điểm hiện tại, thư rác có thể bị gửi thông qua những hình thức thư điện tử, nhóm thảo luận (newsgroups), điện thoại di động (Short Message Service - SMS) và các dịch vụ gửi tin nhắn trên mạng (như Yahoo Messenger, Windows Messenger )

2> Dựa vào quan hệ với người gửi thư rác

Các mối quan hệ với người gửi thư rác bao gồm người lạ mặt, bạn bè, người quen và các dịch vụ quyên góp giúp đỡ…

3> Dựa vào nội dung của thư rác

Các kiểu nội dung phổ biến như thư về thương mại, thư về chính trị, thư về công nghệ, chuỗi thư (chain email) và các loại khác (như thư phát tán virus )

4> Dựa trên động lực của người gửi

Thông thường, thư rác được gửi đi cho những mục đích quảng bá thông tin Ngoài ra, còn có một số loại thư rác được gửi tới một người nhận xác định nào

đó nhằm mục đích phá vỡ và gây cản trở công việc của người nhận hay mạng của nhà cung cấp dịch vụ thư điện tử ESP (Email Service Provider) được gọi là

“bom thư” Thư rác còn được cố ý gửi đi nhằm thông báo tin sai lệch, làm xáo trộn công việc và cuộc sống của người nhận

1.1.4 Những thiệt hại do thư rác gây ra

Các khảo sát cho thấy thư rác hiện chiếm hơn một nửa số email qua lại hàng ngày trên Internet và chính thư rác là nguồn lây lan virus nhanh nhất Thiệt hại do chúng gây ra rất lớn

Năm 2003, báo cáo của Hội thảo Thương mại và Phát triển của Liên Hiệp Quốc cho thấy thiệt hại do thư rác gây ra khoảng 20,5 tỷ USD Các hãng diệt virus cũng đưa ra ước tính thiệt hại của các cuộc tấn công do virus năm 2001 là 13 tỷ USD, năm 2002 khoảng từ 20 - 30 tỷ USD Chi phí để khắc phục sự cố do virus gây ra trong các doanh nghiệp được điều tra ngẫu nhiên ở Mỹ năm 2002 là 81.000 USD, đến năm

2003 đã tăng lên 100.000 USD Trên 3/4 số doanh nghiệp cho rằng sự cố virus đã gây tổn hại nhất định đến năng suất làm việc và 2/3 cho biết ảnh hưởng chủ yếu của mỗi

vụ tấn công là làm cho máy tính không thể truy cập được Những ảnh hưởng khác của virus là làm hỏng file và không thể truy xuất dữ liệu

Trang 14

Theo thống kê toàn cầu của hãng nghiên cứu Ferris Research (San Francisco), thư rác gây thiệt hại 50 tỷ USD trong năm 2005 Chỉ tính riêng ở Mỹ, thiệt hại do thư rác gây ra đối với các doanh nghiệp ước tính khoảng 17 tỷ USD/năm

Không chỉ gây thiệt hại về tiền bạc, thư rác còn làm giảm hiệu quả làm việc, gây stress, tiêu tốn thời gian của nhân viên Những điều này cũng đồng nghĩa với việc, năng suất lao động giảm, ảnh hưởng tới tình hình kinh doanh và doanh thu của công ty

Báo cáo mới công bố của Tổ chức hợp tác phát triển kinh tế OECD cho thấy thư rác đang là vấn nạn toàn cầu, nhưng ảnh hưởng tới người sử dụng Internet ở thế giới thứ ba (các nước đang pháp triển) nhiều hơn tại các quốc gia phát triển Theo phân tích của OECD một phần nguyên nhân của việc người sử dụng máy tính ở các nước đang phát triển hay bị virus và thư rác tấn công là do họ thường mua hệ điều hành và phần mềm chống virus không có bản quyền (do điều kiện kinh tế không cho phép) nên không thể được cập nhật một cách đầy đủ, không đối phó với những kỹ thuật liên tục thay đổi của những tên tin tặc (hacker) và những tên gửi thư rác (spammer) Bênh cạnh

đó phải kể đến nguyên nhân thiếu kiến thức, công nghệ và tài chính để đối phó với sự gia tăng thư rác trên hệ thống liên lạc trong nước, gây thất thoát đáng kể nguồn lực công nghệ vốn đã yếu và thiếu tại những nơi này Các ISP nội địa thì thiếu những chính sách ngăn chặn và xử lý thư rác, trong khi đó, những kênh tiếp vận (relay) và proxy “mở toang” cùng với vô số máy tính bị nhiễm virus hoặc Trojan trong mạng đã trở thành những nguồn phát tán thư rác lớn Hậu quả là người sử dụng phải hứng chịu tình trạng bất ổn định dịch vụ, gây cản trở quá trình thu hẹp khoảng cách số toàn cầu

Từ những con số thống kê trên ta có thể thấy, việc thông qua các chế tài pháp

lý quốc tế, đầu tư mạnh vào hệ thống lọc thư rác, thiết lập những trung tâm phản ứng nhanh liên kết các ISP toàn cầu, đồng thời tăng cường các chiến dịch tuyên truyền cộng đồng về sự nguy hại và cách đối phó với thư rác là công việc rất quan trọng và cần thiết

Ngày nay, spam không phải đơn giản chỉ nằm trong thư điện tử mà còn có cả trong blog1, còn gọi là spam blogs hay splogs, trên các tin nhắn trực tuyến Những xu thế này chính là những hình thức mới của spam có thể phát triển nở rộ trong năm 2006

1 Blog, gọi tắt của weblog (tiếng Anh, "nhật ký web"), là một dạng đàm luận thời sự trực tuyến, bùng

nổ từ cuối thập niên 1990 Các bloger(người viết blog), có thể là cá nhân hoặc nhóm, đưa thông tin lên mạng với mọi chủ đề, thông thường có liên quan tới kinh nghiệm hoặc ý kiến cá nhân, chủ yếu cung cấp thông tin đề cập tới những chủ đề chọn lọc, không giống như các báo truyền thống Một trang blog

có thể chứa các siêu liên kết, hình ảnh và liên kết (tới các trang chứa phim và âm nhạc).

Trang 15

Ngoài ra, luật phòng chống spam và các bộ lọc spam ngày càng chặt chẽ sẽ khiến cho những kẻ gửi thư rác phải thay đổi đối tượng tấn công

Để có thể loại bỏ được thư rác, ta không thể dùng một phương pháp riêng lẻ nào để loại bỏ tận gốc mà cần áp dụng các phương pháp kết hợp với nhau Một trong những cách hữu hiệu nhất để chặn spam là giáo dục người dùng cuối Khi người sử dụng đã có kiến thức thì họ sẽ ít bị rơi vào bẫy do những kẻ phát tán thư rác cố tình giăng ra để khai thác địa chỉ email và duy trì mục đích của chúng

Một số lời khuyên cho người dùng thư điện tử:

ƒ Yêu cầu và đòi hỏi những nhà chức trách có những luật lệ nghiêm cấm thư rác và có những hình phạt thích đáng cho những kẻ cố tình

ƒ Mỗi người dùng nên dùng nhiều địa chỉ email Đây là phương pháp khá hiệu quả Người dùng nên dùng các địa chỉ email khác nhau cho các mục đích khác nhau Chẳng hạn, tạo một địa chỉ email cho công việc, một cho cá nhân,

và một để đăng ký các dịch vụ, thông tin trên internet Bằng cách này, người dùng có thể suy luận ra được địa chỉ nào bị lộ sau khi đăng ký các dịch vụ

và tránh được chúng sau này

ƒ Hạn chế đăng ký các dịch vụ vô ích Người dùng nên tìm hiểu và đọc kỹ thông tin về dịch vụ trước khi cung cấp địa chỉ email của mình, cần chắc chắn là dịch vụ này cho phép lựa chọn “không nhận email quảng cáo từ các đối tác của nhà cung cấp dịch vụ”

ƒ Kích hoạt các dịch vụ chống thư rác của ISP Các ISP thường tích hợp các công cụ lọc thư rác cũng như chương trình quét virus Người dùng nên kích hoạt các dịch vụ này khi dùng Internet Phương pháp này cũng giúp giảm bớt được phần nào số lượng thư rác phải nhận mỗi ngày

ƒ Cài đặt một số chương trình xử lý thư trong máy tính cá nhân để xóa thư rác ngay khi chuyển về máy

ƒ Bảo vệ mật khẩu của mình bằng cách chọn mật khẩu lạ, khó đoán hoặc không thể đoán được, trong đó chữ cái xen lẫn con số, chữ hoa xen lẫn chữ thường

ƒ Thường xuyên ghi dự phòng những dữ liệu quan trọng Đồng thời, cảnh giác với những thư từ người quen biết nhưng không được báo trước, bởi có thể chúng được gửi đi mà người kia không biết

Trang 16

Spam vẫn từng phút gây thiệt hại cho nền kinh tế Internet Người ta nhận định rằng sẽ không bao giờ có đích đến cho công cuộc chống spam Tùy vào ý thức của cư dân Internet và sức mạnh công nghệ, chỉ có thể hạn chế phần nào nó mà thôi

1.2 Các giải pháp cho vấn đề lọc thư rác

1.2.1 Ban hành các bộ luật chống thư rác

Thư rác đang gia tăng với tốc độ khủng khiếp và đòi hỏi cần có những biện pháp cứng rắn phối hợp từ phía chính phủ Chính vì vậy, việc ban hành các bộ luật chống thư rác là rất cần thiết và xác đáng

Hiện nay, có rất ít quốc gia trên thế giới có luật bảo vệ người dùng dưới sự tấn công của thư rác Về mặt luật pháp đối với thư rác, Mỹ là nước đi đầu với bộ luật quy định về “Email không do yêu cầu” (Unsolicited Electronic Mail Act), theo sau đó là Khối Cộng đồng chung Châu Âu với bộ luật mẫu về Thương mại Điện tử và Quảng cáo trên Internet Hai bộ luật này đều dựa trên những luật căn bản như Quyền riêng tư, Bảo vệ Thông tin cá nhân và Quy định Thư tín/Giấy tờ Điện tử Cả hai đều có những điểm chung là bắt buộc người gửi email không được mời phải nêu rõ mục đích và nội dung trong phần tiêu đề (Subject) để người nhận có thể xác định thông tin ngay và đồng thời phải có thông tin cho phép người nhận được quyền rút tên khỏi danh sách email nếu muốn Thêm vào đó, những công ty hoặc người gửi thư rác phải hiểu và nắm vững chính sách quản lý thư rác/quảng cáo của mỗi ISP mà họ gặp phải

Ở Việt Nam, chúng ta chỉ mới công nhận tính chất pháp lý của thư điện tử trong bộ Luật Hình sự, nhưng chưa có luật quy định và nghiêm cấm các hình thức gửi thư rác Theo dự kiến, Pháp lệnh Thương mại điện tử và các dịch vụ liên quan đang được xây dựng, dự kiến sẽ trình Quốc hội phê chuẩn trong thời gian tới, trong đó sẽ có một số điều khoản quy định về thư rác được đưa ra xem xét

1.2.2 Các phương pháp lọc thư rác trước đây

Vấn đề thư rác là vấn đề gây nhức nhối trong xã hội trong những năm gần đây Nhiều nhà khoa học và nhiều công trình nghiên cứu về phương pháp lọc thư rác đã được đầu tư và tiến hành từ khá lâu

Để đánh giá hiệu quả của một công cụ lọc thư rác người ta thường dựa trên hai độ đo sau:

Trang 17

o False Negative – Tỷ lệ thư rác bị lọc nhầm thành thư thường

Trong hai lỗi trên thì lỗi False Positive là loại lỗi cần tránh nhất, người dùng thường không chấp nhận lỗi này Các công cụ lọc thư rác thường được tính toán sao cho độ đo False Positives và False Negatives là nhỏ nhất Tuy nhiên, lỗi False Positives có phần được yêu tiên hơn Một bộ lọc lý tưởng là sản phẩn có False Positives bằng 0 và False Negatives bằng 0 Điều này dường như là không thể

Tất cả những công cụ lọc có giá trị ngày nay thường sử dụng một trong số những phương pháp hoặc kết hợp của các phương pháp sau:

Phương pháp lọc theo từ khóa

Phương pháp lọc thư rác theo từ khóa là một phương pháp truyền thống trong việc lọc thư rác Người ta dựa vào những từ hay cụm từ có trong đầu đề của thư (subject) và nội dung của thư để lọc

Khi một thư mới được gửi tới hòm thư của bạn, bạn phải tạo một bộ lọc mới đơn giản bằng cách chọn một số từ hoặc cụm từ trong nội dung thư Các từ hay cụm từ này sẽ xác định đó là thư rác hay không Vì mục đích của tất cả spam cơ bản là giống nhau (bán hoặc quảng cáo một sản phẩm hay một dịch vụ) và nội dung của hầu hết

spam đều mang các đặc điểm chung Những cụm từ, câu chữ như “Silk ties” (Cà vạt lụa) hoặc “Eliminate debt” (Xoá nợ) xuất hiện thường xuyên trên spam và được coi

những cụm từ thường xuyên xuất hiện nhất trong các bức thư không mong muốn Các

đặc điểm nội dung khác để nhận diện spam như yêu cầu hành động như “Fin out how,

click here” hoặc thông báo huỷ như “If you want to be removed from our mailing lists…”

Một vài năm gần đây, những kẻ gửi thư rác đã bắt đầu nhận ra rằng thư rác của chúng đã bị chặn bởi bộ lọc theo từ khóa này Do vậy những kẻ gửi thư rác này đã thay đổi cách viết nội dung của thư rác nhằm làm cho thư rác của chúng có thể “xuyên qua” các bộ lọc Điều này có thể giải thích tại sao bạn nhận nhiều thư với những từ

như "Vi@gra", "Mort.gage", "L|0|a|n|$" hay những tranh ảnh được nhúng vào trong

thư

Phương pháp này có một số ưu điểm và nhược điểm sau:

Ưu điểm:

ƒ Tính thích nghi: Người dùng có thể dễ dàng biến đổi bộ lọc của mình để

nó có thể lọc các kiểu thư rác mà người đó đang phải nhận và điều quan

Trang 18

trọng là nó không cản trở (thích nghi) các từ và các cụm từ được sử dụng hàng ngày trong kinh doanh thương mại với bạn bè hay những người thân quen

Nhược điểm:

ƒ Yêu cầu nhiều tiến trình xử lý bằng tay để điều chỉnh và duy trì bộ lọc được hiệu quả Để có thể đánh lừa các bộ lọc, những kẻ gửi thư rác luôn luôn thay đổi hình thức nội dung của thư rác, do đó những bộ lọc mở rộng phải được tạo ra để chống lại điều đó

Phương pháp lọc Bayesian

Lọc bằng thống kê Bayesian là đánh giá xem những từ ngữ trong một email

sắp được chuyển đến có thường xuyên xuất hiện trên thư rác (spam) hay thư hợp pháp (ham) không Một cách hiệu quả giúp lọc chính xác là người dùng thông báo cho chương trình lọc bất kỳ thư rác nào mà đã may mắn “thoát” đợt “truy quét” đầu tiên Lần lọc sau, chắc chắn nó sẽ không thể trốn thoát qua bộ lọc

Bộ lọc Bayesian phải được học từ những email được xác định trước là thư tốt hay thư không tốt Trong suốt quá trình cho bộ lọc học, nội dung của các thư này được tách các từ tố (token) và lưu vào trong một cơ sở dữ liệu Dựa vào công thức Bayes, mỗi từ tố được tính cho một giá trị phụ thuộc vào một số tiêu chuẩn sau:

- Mức độ thường xuyên xuất hiện của từ tố đó trong thư rác

- Mức độ thường xuyên xuất hiện của từ tố đó trong thư bình thường

- Số lượng thư rác mà bộ lọc đã được học

- Số lượng thư bình thường bộ lọc đã được học

Khi phân tích một thư rác đến, nội dung của thư này cũng được tách ra thành các từ tố, tra giá trị ứng với từ tố này có trong cơ sở dữ liệu từ đó tính được xác suất

tổng hợp xem thư đó có phải là thư rác không Giá trị này thường gọi là “spamicity”

Ưu điểm:

ƒ Yêu cầu sự duy trì ít hơn các bộ lọc khác

ƒ Bộ lọc có thể tự động thích nghi với các hướng thay đổi của thư rác Bởi

vì, bộ lọc Bayesian luôn tiếp tục học từ những thư mới đến, chúng sẽ tự thích nghi dần dần với các hướng thay đổi

Trang 19

ƒ Tự động điều chỉnh phù hợp với hòm thư của những người dùng riêng biệt Thí dụ, nếu người dùng là nhân viên cho vay lãi thì những thư lặp

đi lặp lại yêu cầu cho vay sẽ không bị xác định như là thư rác

Nhược đỉểm:

ƒ Bộ lọc chỉ lọc tốt đối với những kiểu thư mà chúng đã được học Để có thể đạt tới khả năng là một bộ lọc tốt, nó cần có thời gian học khá lâu và một lượng dữ liệu thư đủ phong phú Các thư rác mới phải thường xuyên được cập nhật

Phương pháp dùng danh sách trắng/đen

Đây là phương pháp cơ sở của các bộ lọc thư rác Tuy nhiên, ngày nay người

ta ít khi sử dụng nó một cách đơn lập mà được dùng kết hợp với các phương pháp lọc khác như là một phần của hệ thống bộ lọc tích hợp

Bộ lọc danh sách trắng (Whitelist filter) sẽ không chấp nhận những email từ

bất cứ địa chỉ nào nếu không có trong danh sách được chắc chắn là những địa chỉ email (hoặc địa chỉ IP) tốt

Trang 20

Bộ lọc danh sách đen (Blacklist filter), ngược lại sẽ cho phép những thư đến

từ bất cứ địa chỉ email (hoặc địa chỉ IP) nào trừ những địa chỉ được liệt kê trong danh sách được biết đến như là địa chỉ email (hoặc địa chỉ IP) xấu Danh sách đen có thể được lưu trữ và được quản lý trên những hệ thống địa phương hoặc ánh xạ thông qua mạng Internet

Ưu điểm:

ƒ Danh sách trắng bảo đảm ngăn những email từ những nguồn không mong muốn

ƒ Với bộ lọc thư rác sử dụng danh sách đen được cập nhật thường xuyên

sẽ cho giá trị False Positives bằng 0

Nhược điểm:

ƒ Bộ lọc sử dụng danh sách trắng là cách loại trừ thư rác mạnh mà không

có tính mềm mỏng Bất cứ thư nào tới mà không có địa chỉ trong danh sách này thì đều bị loại thành thư rác, do đó giá trị False Positives thường cao

ƒ Các danh sách này không được tạo tự động mà sẽ do người quản trị thường xuyên cập nhật Cả Blacklist và Whitelist đều rất khó duy trì và phương pháp này đặc biệt trở lên không hiệu quả đối với những tấn công của những kẻ tấn công cố đưa địa chỉ vào Whitelist và chối bỏ địa chỉ khỏi Blacklist

Ngày nay, một hình thức ngăn chặn spam mới kế thừa và pháp trển của phương pháp Blacklist được biết đến đó là Realtime Blackhole List (RBL) của Multiple Address Processing System (MAPS) Nó có thể nhận biết các máy chủ có nhiều thư rác do đó nhà cung cấp dịch vụ có thể chặn những máy chủ này và lọc spam trước khi chúng đến hộp thư khách hàng của họ Hàng ngàn nhà cung cấp dịch vụ dùng cơ sở dữ liệu của RBL đồng thời kết hợp nhiều ứng dụng bảo mật thư điện tử trong máy chủ

Phương pháp lọc thư rác dùng chuỗi hỏi đáp (Challenge/Response filters)

Đặc trưng của phương pháp này là khả năng tự động gửi thư hồi đáp cho người gửi để yêu cầu một số hành động kiểm tra chắc chắn về việc gửi thư của họ

Chương trình kiểm tra này được đặt tên là “Turing Test” do nhà toán học người anh

tên là Alan Turing nghĩ ra

Trang 21

Trong một vài năm gần đây xuất hiện của một vài dịch vụ Internet tự động xử

lý hàm Challenge/Response này cho người dùng Chương trình yêu cầu người gửi thư phải vào website của họ và trả lời một số câu hỏi đơn giản để xác minh về email mà người này đã gửi.Việc này chỉ được yêu cầu trong lần gửi thư đầu tiên Đáp ứng hàm Challenge/Response này rất đơn giản và không có gì khó khăn khi một người dùng muốn gửi thư cho một người khác nhưng nó không mấy dễ dàng cho những kẻ gửi thư rác muốn phát tán một lượng lớn thư rác đi

Ưu điểm:

ƒ Đối với một số người dùng có lượng thư trao đổi thấp, hệ thống đơn lẻ này có thể chấp nhận được như một phương pháp hoàn hảo để loại trừ hoàn toàn thư rác từ hòm thư của họ

Nhược điểm:

ƒ Người dùng thường cảm thấy không thuận tiện

ƒ Những kẻ gửi thư rác có thể viết những chương trình trả lời tự động những chuỗi hỏi đáp trên

Phương pháp lọc dựa vào vị trí của các bộ lọc (Filter Placement)

Có 3 mô hình chính cho bộ lọc được sắp đặt:

a Bộ lọc tích hợp với máy trạm email của người dùng:

Nhiều bộ lọc thư rác được tích hợp với các máy trạm email chẳng hạn như Outlook hoặc outlool Exprees

Ưu điểm:

ƒ Tối thiểu sự ảnh hưởng đối với những thói quen đọc thư thông thường của người dùng Thư rác thường bị di chuyển tới một thư mục “Junk Mail” Người dùng có thể xem lại hoặc xóa spam lưu trong thư mục này

đi một cách dễ dàng

Nhược điểm:

ƒ Người dùng chỉ có thể sử dụng với máy trạm của email hiện tại của mình

ƒ Không mềm dẻo: thường đưa cho người dùng giới hạn để chọn những cảnh báo Thí dụ, khi người dùng đang chạy Microsoft Outlook với một

bộ lọc thư rác tích hợp, bất cứ khi nào một thư rác tới, người dùng vẫn bị cảnh bảo một thư mới tới Người dùng phải vào chương trình Outlook để

Trang 22

xác nhận xem thư mới đến đó là thư rác và không phải là một email quan trọng Người dùng không thể điều chỉnh để tạo một cảnh báo khác có thể nghe thấy giữa những email tốt và xấu hoặc chỉ cảnh báo những email tốt khi những email được gửi tới hòm thư trước khi chúng hoạt đông chống lại bởi bộ lọc và di chuyển tới một thư mục riêng biệt

b Các bộ lọc hoạt động như là một “proxy” giữa máy chủ email và máy trạm email của người dùng

Bộ lọc này chạy bên trong máy của người dùng, định kì thăm dò máy chủ email, lấy ra những email của người dùng và nó được lọc trên máy chủ email trước khi những email này được gửi tới máy trạm email bình thường của người dùng và được lọc một lần nữa

Ưu điểm:

ƒ Dễ thay đổi: Các thư trước khi được gửi tới người dùng nó có thể đánh dấu, di chuyển hoặc xóa bởi máy chủ email trước khi chúng được nhìn thấy bởi máy trạm email của người dùng

ƒ Bảo mật: chúng tương ứng như một tầng khác ở giữa Internet và máy trạm email của người dùng Chúng sẽ không chạy bất cứ một ứng dụng nào hay chạy một tập lệnh nào đó được tìm thấy trong thư

Nhược điểm:

ƒ Sử dụng hiệu quả phương pháp này đòi hỏi tắt chế độ tự động kiểm tra trên máy trạn email của người dùng vì thế proxy phải thay đổi để làm việc trên máy chủ đầu tiên

ƒ Thông tin tài khoản email cần được cài đặt trong bộ lọc cũng như trong máy trạm email của người dùng

c Bộ lọc dựa trên máy chủ

Những bộ lọc này thường chỉ được sử dụng trong một nhóm hoặc môi trường làm việc kinh doanh hơn là ở trong gia đình Tất cả email đến đều thông qua máy chủ trung tâm Tại máy chủ trung tâm này, email được lọc bởi bộ lọc dựa trên máy chủ và những người dùng riêng biệt nhận thư của họ trên màn hình nền của máy họ lấy từ máy chủ trung tâm

Ưu điểm:

Trang 23

ƒ Việc quản lý trung tâm của tất cả các luật lọc thư bảo đảm tính an toàn trong mạng

ƒ Những người dùng riêng biệt không phải chịu trách nhiệm cũng như không phải lo lắng đến sự quản lý thư rác, giải phóng họ để họ có thể yên tâm trong công việc với trao đổi thư điện tử

Nhược điểm:

ƒ Thường yêu cầu nhiều tới sự duy trì và cầm có một người quản trị mạng

có khả năng và kinh nghiệm để quản lý bộ lọc thư rác này

ƒ Thường đắt hơn

Phương pháp lọc dựa trên xác nhận danh tính của người gửi

Giả mạo thư điện tử - là việc giả mạo địa chỉ thư điện tử của một công ty hoặc của một người khác để khiến người sử dụng tin tưởng và mở thư - đang là một trong những thử thách lớn nhất mà cộng đồng sử dụng Internet và các kỹ thuật viên chống thư rác hiện đang phải đối mặt Nếu không có sự thẩm định quyền, xác nhận và khả năng truy tìm danh tính của người gửi, các hãng cung cấp dịch vụ thư điện tử không bao giờ có thể biết chắc một bức thư là hợp pháp hay bị giả mạo Do đó việc xác nhận danh tính của người gửi là rất cần thiết Để xác nhận danh tính của người gửi người ta đưa ra một số giải pháp sau:

a Phương pháp DomainKeys

Phương pháp DomainKeys có thể giúp phân định rõ thư rác và thư thường bằng cách cung cấp cho các hãng cung cấp dịch vụ thư điện tử một cơ chế xác nhận cả tên miền của mỗi người gửi thư điện tử và sự liêm chính của mỗi bức thư được gửi đi (ví dụ như các thư này không bị thay thế trong khi được truyền qua mạng) Và, sau khi

đã xác nhận được tên miền, người ta có thể so sánh tên miền này với tên miền mà người gửi sử dụng trong ô “Người gửi” của bức thư để phát hiện các trường hợp giả mạo Nếu đây là trường hợp giả mạo, thư đó sẽ bị coi là thư rác hoặc gian lận, và có thể bị loại bỏ mà không ảnh hưởng tới người sử dụng Nếu đây không phải là thư giả mạo, có nghĩa là tên miền được biết đến và tên miền gửi thư đó có thể được được đưa vào danh sách những tên miền đáng tin cậy và được đưa vào các hệ thống quy định chống thư rác được sử dụng chung giữa các hãng cung cấp dịch vụ và thậm chí đưa ra cho cả người sử dụng

b Phương pháp Call-ID

Trang 24

Caller ID là một tiêu chuẩn đặt ra trong quá trình gửi thư Tiêu chuẩn này đòi hỏi người gửi thư điện tử phải cung cấp địa chỉ IP của máy chủ gửi thư theo dạng XML vào bản ghi DNS trên máy chủ tên miền của họ Máy chủ nhận thư điện tử và máy khách nhận bức thư đó sẽ kiểm tra địa chỉ gửi thư trong tiêu đề bức thư với địa chỉ đã được công bố để xác nhận máy chủ gửi thư Các bức thư không khớp với địa chỉ nguồn sẽ bị loại bỏ DNS là hệ thống diễn dịch các địa chỉ IP số sang các tên miền Internet có thể đọc được

c Phương pháp SPF (Sender Policy Framework) - dựa trên cơ cấu chính sách người gửi

Chuẩn SPF cũng yêu cầu người gửi thư điện tử phải sửa đổi DNS để cho biết máy chủ nào có thể gửi thư từ một tên miền Internet nhất định Tuy nhiên, SPF chỉ kiểm tra sự giả mạo khi bức thư trong quá trình chuyển thư hay còn gọi là ở mức

“ngoài phong bì”, xác minh địa chỉ “phản hồi” của một bức thư, thường được máy chủ nhận thư gửi trở lại trước khi tiếp nhận phần nội dung thư, sau đó sẽ thông báo tới máy chủ nhận thư để loại bỏ bức thư

Trong đặc tả kỹ thuật kết hợp hai tiêu chuẩn, các công ty gửi thư điện tử sẽ công bố địa chỉ máy chủ thư điện tử của họ trong bản ghi DNS dưới định dạng Ngôn ngữ đánh dấu mở rộng (XML) Các công ty sẽ có thể kiểm tra sự giả mạo ở mức phong bì (cũng giống như trong đề xuất SPF) và trong phần nội dung thư (theo đề xuất của Microsoft)

Kỹ thuật này sẽ cho phép các công ty sử dụng cách thức của SPF để loại bỏ thư rác trước khi chúng được gửi đi, nếu sự giả mạo bị phát hiện ngay ở mức phong bì Với những bức thư đòi hỏi sự kiểm tra kỹ hơn trong nội dung thư, thì phương pháp Caller ID sẽ được sử dụng Đề xuất này cũng sẽ hỗ trợ các tên miền đã có sẵn những bản ghi SPF là văn bản, không theo định dạng XML

Phương pháp lọc thư rác mới dựa trên mạng Xã hội

Các nghiên cứu gần đây đã bắt đầu khai thác thông tin từ mạng xã hội cho việc xác định thư rác bằng cách xây dựng một đồ thị (các đỉnh là địa chỉ email, cung được thêm vào giữa 2 node A và B nếu giữa A và B có sự trao đổi thư qua lại) P.O Boykin và V Roychowdhury đã sử dụng một số tính chất đặc trưng của mạng xã hội

để xây dựng một công cụ lọc thư rác [6]

Đầu tiên, người ta phân đồ thị thành các thành phần con rồi tính độ phân cụm cho từng thành phần này Mỗi thành phần con là một đồ thị mạng xã hội của một node,

Trang 25

bao gồm tất cả các node hàng xóm (các node xung quanh có cung liên kết với node này) và những cung liên kết giữa các node hàng xóm này với nhau Nếu thành phần nào có độ phân cụm thấp thì node tương ứng với thành phần đó là một địa chỉ gửi thư rác Trong thành phần mạng xã hội của những node gửi thư rác, những node hàng xóm của nó thường là những node rất ngẫu nhiên, không có mối quan hệ (không có sự trao đổi email qua lại với nhau) nên độ phân cụm của mạng xã hội của những node này rất thấp Ngược lại, mạng xã hội ứng với những người dùng bình thường các node hàng xóm của nó có mối liên kết cao với nhau nên có độ phân cụm cao hơn

Dựa vào độ phân cụm, người ta tạo được danh sách đen (Blacklist) gồm địa chỉ email tương ứng với những node có độ phân cụm rất thấp, danh sách trắng (Whitelist) ứng với node có độ phân cụm cao, số node còn lại sẽ được đưa vào danh sách cần xem xét (Greylist) Phương pháp này có thể phân loại được 53% tổng số email một cách chính xác là ham hay spam Nhược điểm của phương pháp là những spammer có thể xây dựng mạng xã hội của chính họ nên khó có thể phát hiện ra

Cho đến nay, một bộ lọc thư rác được xem là hoàn hảo vẫn chưa được tạo ra,

và việc tạo ra một bộ lọc thư rác hoàn hảo cho mọi thời đại dường như là thể không thể Bởi, cuộc chiến không ngừng giữa những tên gửi thư rác và những bộ lọc làm cho siêu bộ lọc thư rác của hôm nay có thể trở thành cái lỗi thời của ngày mai Bộ lọc thư rác mạnh nhất sẽ là bộ lọc sử dụng kết hợp nhiều bộ lọc khác, hoặc tất cả các thuộc tính đã liệu kê ở trên đây

Trang 26

Chương 2

KIẾN THỨC CƠ SỞ

Bản chất của việc lọc thư rác dựa trên phương pháp mạng xã hội là việc áp dụng các tính chất của đồ thị của mạng, cấu trúc của mạng để tính được độ phân cụm của các thành phần của của các node mạng, từ đó có thể đánh giá được thành phần ứng với node nào là th0ư rác Chương này trình bày một cách cơ sở và về nguồn gốc cấu trúc của các mạng liên quan,

là cơ sở khoa học của phương pháp lọc thư rác sẽ được đưa ra ở phần sau

2.1 Mạng phức hợp (Complex Networks)

Trong một vài năm gần đây người ta đã bắt đầu nhận thấy được tầm quan

trọng của mạng phức hợp (Complex Networks) trong nhiều lĩnh vực trong khoa học

cũng như trong đời sống của xã hội hiện đại Việc nghiên cứu về mạng phức hợp cũng được khuyến khích và đã có rất nhiều nhà khoa học, nhà nghiên cứu trên thế giới quan tâm và tìm hiểu về mạng phức hợp Theo biểu đồ thống kê (Hình 2.1) cho thấy số lượng bài báo nghiên cứu về mạng phức hợp đã gia tăng một cách đột biến trong những năm gần đây [16]

Hình 2.1 : Biểu đồ số lượng bài báo nghiên cứu về mạng phức hợp

Trang 27

Mạng phức hợp là một tập các hệ thống được tạo bởi các yếu tố đồng nhất

hoặc không đồng nhất kết nối với nhau thông qua sự tương tác khác nhau giữa các yếu

tố này và được trải ra trên diện rộng Chúng có mặt ở khắp nơi trong tự nhiên và trong

xã hội Trong thực tế, có rất nhiều hệ thống trong tự nhiên có thể miêu tả thông qua các mô hình của mạng phức hợp Đó là những hệ thống có cấu trúc gồm các node (hay các đỉnh) gắn với nhau thành một mạng bởi các liên kết (hoặc các cung) Thí dụ như: mạng Internet là mạng của các router hoặc các domain (Hình 2.2); mạng World Wide Web (WWW) là mạng của những trang web (Hình 2.3); bộ não chính là mạng của các nơron thần kinh (Hình 2.4); một tổ chức là mạng của những thành viên trong tổ chức; nền kinh tế toàn cầu là mạng của kinh tế của các nước thành phần, nền kinh tế mỗi nước lại là một mạng các thị trường, mỗi thị trường lại là một mạng tương tác giữa những sản phẩm hàng hóa và người tiêu thụ; Web thức ăn (Food Web) (Hình 2.5) và những đường trao đổi chất cũng có thể biểu diễn bởi một mạng (Hình 2.6); mạng của các chất hóa học (liên kết với nhau bởi các phản ứng hóa học); mạng ngôn ngữ (thí dụ như mạng đồng âm khác nghĩa, mạng đồng nghĩa); các mạng lưới điện cao thế (Electrical Power Grid); các chủ đề của một buổi nói chuyện và thậm chí việc vạch kế hoạch cho xử lý một vẫn đề toán học nào đó cũng có thể mô hình bằng một mạng

Hình 2.2 Mạng Internet

Hình 2.3 Mạng World Wide Work

Hình 2.4 Mạng Nơron

Hình 2.5 Mạng Food web

Trang 28

Nếu quan sát bằng trực quan ta có thể thấy chúng được thường xuất hiện một cách hỗn loạn, mang tính chất phức tạp cố hữu (cấu trúc rắc rối, tính đa dạng trong liên kết)

Vào cuối những năm 1950, hai nhà toán học Erdös and Rényi (ER) đã tạo ra một bước ngoặt mang ý nghĩa đột phá về lý thuyết đồ thị trong thuật toán cổ điển Hai ông đã mô phỏng được một mô hình mạng với cấu trúc hình học phức tạp bằng đồ thị ngẫu nhiên (Random Graph) [12] Công trình nghiên cứu này không chỉ có ý nghĩa đặt nền móng cho lý thuyết về mạng ngẫu nhiên (Random Networks) mà nó còn mở ra cho nhiều phát minh và nghiên cứu sau này Trong 40 năm tiếp theo và thậm chí cho tới tận ngày nay, mô hình ER của hai ông vẫn còn mang ý nghĩa sâu sắc và được ứng dụng trong nhiều lĩnh vực của khoa học và đời sống Mặc dù, bằng quan sát thực tế ta

có thể thấy rõ nhiều mạng phức hợp trong cuộc sống thực (real-life complex networks)

Trang 29

không hoàn toàn đã là mạng thông thường (Regular Networks) cũng không hoàn toàn

là một mạng ngẫu nhiên nhưng mô hình đồ thị ngẫu nhiên ER vẫn là một hướng tiếp cận khá nhạy cảm và thể hiện sự nhìn xa trông rộng của tác giả mà cho đến tận nửa thập kỉ gần đây vẫn tạo được ảnh hưởng sâu sắc đến những nghiên cứu về mạng phức hợp của các nhà khoa học

Trong một vài năm gần đây, hầu hết dữ liệu đã được đưa vào xử lý bằng máy tính và đạt được tốc độ tính toán cao Hơn nữa, các siêu máy tính còn có khả năng xử

lý lượng dữ liệu khổng lồ được biểu diễn bởi nhiều cấu trúc hình học phức tạp của mạng thực Do đó, việc đáp ứng sự truy cập của cộng đồng đến lượng dữ liệu lớn đó

đã thôi thúc những sự quan tâm đặc biệt vào việc cố gắng tìm ra những đặc điểm chung của các loại mạng phức hợp khác nhau Với sự cố gắng đó, người ta đã khám

phá ra hai thuộc tính có ý nghĩa quan trọng của hầu hết các mạng phức hợp đó là hiệu

ứng thế giới nhỏ (small-world effect) và đặc trưng co dãn tự do (scale-free feature)

Năm 1998, nhằm mô tả sự chuyển tiếp từ đồ thị mạng thường sang đồ thị mạng ngẫu nhiên, hai nhà khoa học Watts và Strogatz (WS) đã đưa ra khái niệm về mạng small-world [36] Trong cuộc sống đời thường chúng ta cũng có thể bắt gặp hiện tượng small-world này rất nhiều, chẳng hạn ngay sau khi gặp một người lạ mặt rồi cả hai cùng bất ngờ nhận ra rằng giữa họ có mối quan hệ rất gần gũi và cả hai cùng thốt lên “Thế giới này thật nhỏ bé!” Một hiện tượng khác cũng khá thú vị của biểu hiện small-worlds được nhà tâm lý học xã hội Milgran đề cập tới vào cuối những năm 1960 gọi là nguyên tắc “sáu mức ngăn cách” (six degree of separation)[21] Mặc dù, nguyên tắc này đã để lại rất nhiều tranh luận sau này, nhưng người ta thấy rằng kiểu biểu hiện của small-world xuất hiện trong hầu hết các mạng thực Một đặc điểm phổ biến và đặc trưng cho đồ thị ngẫu nhiên ER và mô hình small-world WS là sự phân bố các kết nối giữa các node trong mạng đạt giá trị cực đại tại giá trị trung bình và giảm theo hàm mũ

Những mạng như vậy còn được gọi là mạng hàm mũ (Exponential networks) hay

mạng đồng nhất (Homogeneous networks) bởi vì các node trong mạng có số liên kết

đến như nhau

Một khám phá gần đây cũng ý nghĩa quan trọng lĩnh vực mạng phức hợp đó

là nhiều mạng phức hợp co dãn trên diện rộng (large-scale) là mạng co dãn tự do (scale-free) Kiểu mạng này có phân bố các liên kết trong mạng tuân theo hàm lũy thừa

và không phục thuộc vào độ lớn của mạng [4,5] Không giống với các mạng hàm mũ, mạng scale-free không đồng nhất trong tự nhiên: hầu hết các node trong mạng có một vài liên kết và cá biệt có một số node có rất nhiều liên kết trỏ tới

Trang 30

Sự phát hiện hai đặc tính small-world và scale-free của mạng phức hợp chính

là “chìa khóa” cho sự phát triển của lý thuyết về mạng phức hợp sau này

Để đánh giá một mạng phức hợp nào đó người ta thường dùng ba độ đo: độ dài đường dẫn trung bình (Average Path Length), độ phân cụm (Clustering Coefficient), độ phân bố bậc (Degree Distribution)

2.1.1 Độ dài đường dẫn trung bình

Trong một mạng, gọi d ij là khoảng cách giữa hai node được gắn nhãn lần lượt

là i và j Khi đó, d ij được định nghĩa là số các cung dọc theo đường dẫn ngắn nhất nối

giữa node i và j Từ đó, đường kính D của một mạng được định nghĩa là khoảng cách

lớn nhất trong số tất cả các khoảng cách của bất kì hai node nào trong mạng

Độ dài đường dẫn trung bình L của mạng là trung bình khoảng cách của tất cả các cặp node trong toàn mạng Trong trường hợp này, độ dài đường dẫn trung bình L của một mạng xác định độ lớn hiệu quả của mạng và khoảng cách giữa các cặp node trong mạng đó Trong mạng của những người bạn (Friendship networks) (Hình 2.7), L

là trung bình của số người bạn tồn tại trong chuỗi liên kết ngắn nhất giữa hai người bất

kì trong mạng Bằng thực nghiệm người ta đã chứng minh được rằng độ dài đường

dẫn trung bình của hầu hết các mạng phức hợp thực khá nhỏ, thậm chí ngay cả trong

trường hợp số cung liên kết của nó ít hơn so với mạng cặp đôi đầy đủ với cùng số

node như nhau Hiện tượng này đã nảy sinh hiệu ứng small-world và do đó cái tên

mạng small-world (Small-world Networks) được ra đời

Hình 2.7 Đồ thị mạng những người bạn

Trang 31

2.1.2 Độ phân cụm

Trong mạng những người bạn (Hình 2.7), khả năng "bạn của bạn của bạn cũng là bạn trực tiếp của bạn" hay nói cách khác, xác suất "hai người bạn của một người trở thành bạn của nhau" là rất cao Đặc tính này nói lên độ phân cụm của một

mạng Một cách chính xác hơn, độ phân cụm C của một mạng là trung bình của các

phân số ứng với từng node i có tử là số liên kết của node i với các node xung quanh và mẫu là số liên kết của các cặp node hàng xóm (neighbors) của node i với nhau Giả sử,

node i trong mạng có k i cung và chúng liên kết với k i node khác Các node khác này

chính là những node hàng xóm của node i Như vậy, rõ ràng số luợng cung nhiều nhất

có thể tồn tại giữa các node hàng xóm của i là k i(k i + 1 ) / 2 và điều này chỉ xảy ra khi mọi node trong tập các node hàng xóm này đều có cung liên kết với các node khác

trong tập node hàng xóm trên của i Khi đó, độ phân cụm của node i được định nghĩa

là tỉ lệ giữa số cung Ei tồn tại thực sự giữa ki node hàng xóm của i và tổng số cung có

thể k i(k i+ 1 ) / 2, công thức độ phân cụm ứng với từng node i

) 1 (

* 2

=

i i

i i

k k

E

C (2.1)

Độ phân cụm C của toàn mạng là trung bình độ phân cụm Ei của các node i

Từ công thức độ phân cụm trung bình của C ở trên ta có thể thấy 0≤ C ≤ 1, C=1 nếu

và chỉ nếu mạng đó là mạng cặp đôi đầy đủ hay nói cách khác tất cả các node trong mạng đều có cung nối với mọi node còn lại trong mạng, C i = 0 trong trường hợp E i = 0

hay giữa các node hàng xóm của i không có liên hệ với nhau

Đối với mạng ngẫu nhiên hoàn toàn gồm N node thì khi đó độ phân cụm

N

C ~ 1 / , độ phân cụm này khá nhỏ so với độ phân cụm của hầu hết các mạng thực Bằng thực nghiệm người ta đã chứng minh được rằng độ phân cụm của các mạng thực large-scale có độ phân cụm lớn hơn nhiều so với O ( N1 / ) Do vậy, hầu hết mạng phức hợp thực không phải là mạng ngẫu nhiên hoàn toàn Vì vậy, chúng không nên bị coi

như là mạng ngẫu nhiên hoàn toàn (Completely random networks) hay mạng lưới cặp

đôi đầy đủ (Fully coupled lattices)

Trang 32

tính chất của mạng Trung bình các bậc ki của tất cả các node i gọi là bậc trung bình của mạng và được kí hiệu là <k>

Sự phân bố bậc của các node trong mạng được mô tả bởi hàm phân phối P(k), hàm này cho biết xác suất của một node được chọn ngẫu nhiên có chính xác k cung liên kết (có bậc là k) Một mạng lưới thông thường (Regular lattice) có bậc trung bình

đơn giản bởi vì tất cả các node đều có số các cung liên kết bằng nhau và do đó, khi vẽ

đồ thị độ phân bố nó là một đường thẳng dốc (theo phân bố delta) Trong giới hạn của

mạng ngẫu nhiên hoàn toàn, bậc của các node trong mạng tuân theo phân phối Poisson

và đồ thị của phân phối Poisson này tuân theo hàm mũ, và giá trị cực đại đạt tại giá trị

trung bình <k>.

Trong một vài năm gần đây, nhiều kết quả dựa trên kinh nghiệm đã chứng minh rằng hầu hết các mạng thực large-scale có độ phân phối không tuân theo hàm phân phối Poisson Một cách cá biệt, đối với một số mạng độ phân bố có thể thể hiện

hiệu quả hơn bởi hàm lũy thừa (power-law) P(k)~k -γ

Đặc tính small-world và scale-free là phổ biến đối với nhiều mạng phức hợp thực Bảng 1 liệt kê một số mạng với các đại lượng đo về chúng

cụm

Trung bình đường dẫn Độ phân bố

Ngày đăng: 05/03/2014, 18:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] LA Adamic and BA Huberman. “Power-law distribution of the World Wide Web”. Science, 287:2115a, 2000 Sách, tạp chí
Tiêu đề: Power-law distribution of the World Wide Web”. "Science
[2] R. Albert and A-L. Barabási, “Statistical mechanics of complex networks”, Review of Modern Physics, vol. 74, pp. 47-91, January 2002 Sách, tạp chí
Tiêu đề: Statistical mechanics of complex networks”, "Review of Modern Physics
[3] R. Albert, H. Jeong and A.-L. Barabási, “Diameter of the World Wide Web,” Nature, vol. 401, pp. 130-131, Sept. 1999 Sách, tạp chí
Tiêu đề: Diameter of the World Wide Web,” "Nature
[4] A-L. Barabási and R. Albert, “Emergence of scaling in random networks”, Science, vol. 286, pp. 509-512, Oct. 1999 Sách, tạp chí
Tiêu đề: Emergence of scaling in random networks”, "Science
[5] A-L. Barabási, R. Albert and H. Jeong, “Mean-field theory for scalefree random networks”, Physica A, vol. 272, pp. 173-187, 1999 Sách, tạp chí
Tiêu đề: Mean-field theory for scalefree random networks”, "Physica A
[6] P.O. Boykin and V. Roychowdhury (2005). Leveraging social networks to fight spam. IEEE Computer, 38(4):61–68, 2005 Sách, tạp chí
Tiêu đề: IEEE Computer
Tác giả: P.O. Boykin and V. Roychowdhury
Năm: 2005
[7] R. F. i Cancho, C. Janssen and R. V. Sole, “Topology of technology graphs: small world patterns in electronic circuits”, Phys. Rev. E, vol. 64, 046119, Sept.2001 Sách, tạp chí
Tiêu đề: Topology of technology graphs: small world patterns in electronic circuits”, "Phys. Rev. E
[8] R. F. i Cancho and R. V. Sole, “The small-world of human language”, Proc. R. Soc. London, Ser. B, vol. 268, no. 1482, pp. 2261 - 2265, 2001 Sách, tạp chí
Tiêu đề: The small-world of human language”, "Proc. R. "Soc. London, Ser. B
[9] J. Davidsen, H. Ebel, and S. Bornholdt, “Emergence of a small world from local interaction: Modeling acquaintance networks”, Phys. Rev. Lett. 88, 128701 (2002) Sách, tạp chí
Tiêu đề: Emergence of a small world from local interaction: Modeling acquaintance networks
[10] Deborah Fallows (2003). Spam: How it is hurting email and degrading life on the internet. Technical report, Pew Internet and American Life Project, Oct 2003 Sách, tạp chí
Tiêu đề: Spam: How it is hurting email and degrading life on the internet
Tác giả: Deborah Fallows
Nhà XB: Pew Internet and American Life Project
Năm: 2003
[11] H. Ebel, L-I. Mielsch and S. Bornholdt (2002). Scale-free topology of email networks, Phys. Rev. E, 66, 035103 (R), Sept. 2002 Sách, tạp chí
Tiêu đề: Phys. Rev. E
Tác giả: H. Ebel, L-I. Mielsch and S. Bornholdt
Năm: 2002
[12] P. Erdửs and A. Rộnyi, “On the evolution of random graphs”, Publ. Math. Inst. Hung. Acad. Sci., vol. 5, pp. 17-60, 1959 Sách, tạp chí
Tiêu đề: On the evolution of random graphs”, "Publ. Math. Inst. "Hung. Acad. Sci
[13] M. Faloutsos, P. Faloutsos and C. Faloutsos, “On power-law relationships of the Internet topology”, Comput. Commun. Rev., vol. 29, pp. 251- 263, 1999 Sách, tạp chí
Tiêu đề: On power-law relationships of the Internet topology”, "Comput. Commun. Rev
[15] A. Gray and M. Haahr. Personalised (2004). Collaborative Spam Filtering. Proc. of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004 Sách, tạp chí
Tiêu đề: Proc. "of the Conference on Email and Anti-Spam (CEAS)
Tác giả: A. Gray and M. Haahr. Personalised
Năm: 2004
[16] Guanrong Chen “Complex networks: Modelling, control and synchoroniation” , Science, vol. 208, no. 554, pp. 824-827, Oct. 2003 Sách, tạp chí
Tiêu đề: Complex networks: Modelling, control and synchoroniation” , "Science
[17] BA Huberman and LA Adamic, "Growth dynamics of the world-wide web," Nature 401, 131 (1999) Sách, tạp chí
Tiêu đề: Growth dynamics of the world-wide web
[18] H. Jeong, B. Tombor, R. Albert, Z. Oltvai, and A.-L. Barabási, “The large-scale organization of metabolic networks,” Nature, vol. 407, pp.651-653, Oct. 2000 Sách, tạp chí
Tiêu đề: The large-scale organization of metabolic networks,” "Nature
[19] Medina, I. Matta, J. Byers, “On the origin of power-laws in Internet topologies”, ACM SIGCOMM Comput. Commun. Rev., vol. 30, no. 2, 18-28, 2000 Sách, tạp chí
Tiêu đề: On the origin of power-laws in Internet topologies”, "ACM SIGCOMM Comput. Commun. Rev
[21] S. Milgram, “The small-world problem”, Psychology Today, vol. 2, pp. 60-67, 1967 Sách, tạp chí
Tiêu đề: The small-world problem”, "Psychology Today
[39] Spam Filtering Research http://spamlinks.net/filter-research.htm Link

HÌNH ẢNH LIÊN QUAN

Bảng từ viết tắt - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Bảng t ừ viết tắt (Trang 7)
Hình 2.1 : Biểu đồ số lượng bài báo nghiên cứu về mạng phức hợp - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 2.1 Biểu đồ số lượng bài báo nghiên cứu về mạng phức hợp (Trang 26)
Hình 2.2 Mạng Internet - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 2.2 Mạng Internet (Trang 27)
Hình 2.7 Đồ thị mạng những người bạn - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 2.7 Đồ thị mạng những người bạn (Trang 30)
Bảng 1 Kiểu small-world và thuộc tính scale-free của một vài mạng thực. Mỗi mạng - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Bảng 1 Kiểu small-world và thuộc tính scale-free của một vài mạng thực. Mỗi mạng (Trang 33)
Hình 2.9 Sự phát triển của một đồ thị ngẫu nhiên: khởi tạo 10 node - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 2.9 Sự phát triển của một đồ thị ngẫu nhiên: khởi tạo 10 node (Trang 35)
Hình 2.13 Độ dài đường dẫn trung bình và độ phân cụm  của mô hình WS small-world - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 2.13 Độ dài đường dẫn trung bình và độ phân cụm của mô hình WS small-world (Trang 38)
Hình 2.15 Mô hình mạng xã hội - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 2.15 Mô hình mạng xã hội (Trang 42)
Hình 2.18 Phân phối in-degree đối với mạng thư điện tử - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 2.18 Phân phối in-degree đối với mạng thư điện tử (Trang 46)
Hình 4.1 Đồ thì thư điện tử của máy chủ email của Đại học Quốc Gia Hà Nội - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 4.1 Đồ thì thư điện tử của máy chủ email của Đại học Quốc Gia Hà Nội (Trang 55)
Hình 4.4 Biểu đồ độ phân cụm của người dùng bên ngoài máy chủ email - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 4.4 Biểu đồ độ phân cụm của người dùng bên ngoài máy chủ email (Trang 57)
Hình 4.3 Biểu đồ độ phân cụm của người dùng bên trong máy chủ email - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 4.3 Biểu đồ độ phân cụm của người dùng bên trong máy chủ email (Trang 57)
Hình 4.5 Đồ thị của người dùng bên ngoài máy chủ - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 4.5 Đồ thị của người dùng bên ngoài máy chủ (Trang 59)
Hình 4.6 Đồ thị người dùng bên trong máy chủ có độ - LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx
Hình 4.6 Đồ thị người dùng bên trong máy chủ có độ (Trang 59)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w