1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại thư rác bằng phương pháp học máy

67 365 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 1,71 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

vi DANH MỤC CÁC TỪ VIẾT TẮT Clustering Phân cụm Computer Vision Nhìn máy HAM Thư điện tử không là thứ rác ISP Internet Service Provider, nhà cung cấp dịch vụ Internet KNN K người láng g

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

-o0o -

PHẠM THỊ KIM DUNG

PHÂN LOẠI THƯ RÁC BẰNG PHƯƠNG PHÁP HỌC MÁY

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái nguyên, 2015

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

-o0o -

PHẠM THỊ KIM DUNG

PHÂN LOẠI THƯ RÁC BẰNG PHƯƠNG PHÁP HỌC MÁY

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐỖ TRUNG TUẤN

Thái nguyên, 2015

Trang 3

ii

MỤC LỤC

MỤC LỤC ii

LỜI CAM KẾT iv

LỜI CẢM ƠN v

DANH MỤC CÁC TỪ VIẾT TẮT vi

DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU vii

MỞ ĐẦU vii

CHƯƠNG 1.TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC 3

1.1 Tổng qu n về họ m y 3

1.1.1 Tr tuệ nh n tạo 3

1.1.2 Học máy 4

1.1.3 C kĩ thuật học máy 5

1.1.4 Một số ứng dụng của học máy 7

1.1.5 Học cĩ giám sát 7

1.2 Tổng quan về thư r 12

1.2.1 Định nghĩ về thư r và đặ trưng ủ thư r 12

1.2.2 Phân loại thư r 15

1.2.3 Đặ điểm thư r 15

1.2.4 Tác hại củ thư r 16

1.2.5 Quy trình và thủ đoạn gửi thư r 17

1.3 Biểu diễn phân loại thư r dựa trên học máy cĩ giám sát 20

1.3.1 Nhu cầu phân loại thư r 20

1.3.2 Cách biểu diễn nội dung thư r 23

1.4 Kết luận hương 27

CHƯƠNG 2 PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT 28

2.1 Thuật tốn Nạve Bayes 28

2.1.1.Giới thiệu Thuật tốn Nạve Bayes 28

2.1.2 Mơ tả thuật tốn 28

2.1.3 Áp dụng trong phân loại thư r 33

Trang 4

iii

2.2 Họ m y theo phương ph p m y ve tơ tựa SVM 36

2.2.1 Giới thiệu SVM 36

2.2.2 Mô tả thuật toán 37

2.2.2 Huấn luyện SVM 40

2.2.3 Ứng dụng trong phân loại thư rác 40

2.3 Xây dựng mô hình lọ thư r dựa trên học máy có giám sát 41

2.3.1 Lựa chọn mô hình và thuật toán 41

2.3.2 Xây dựng hệ thống 41

2.4 Kết luận hương 46

CHƯƠNG 3.CÀI ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƯ RÁC 47

3.1 Bài toán phân loại thư r 47

3.2 Cài đặt thử nghiệm và kết quả 50

3.2.1 Bộ dữ liệu thử nghiệm 50

3.2.2 Môi trường ài đặt 52

3.2.3 Giao diện củ hương trình thử nghiệm 52

3.2.4 Kết quả thử nghiệm 54

3.3 Đ nh gi thử nghiệm 55

3.4 Kết luận hương 56

KẾT LUẬN 57

Các kết quả đạt được 57

Hướng phát triển luận văn 57

DANH MỤC TÀI LIỆU THAM KHẢO 58

Trang 5

iv

LỜI CAM KẾT

Dưới sự giúp đỡ nhiệt tình và chỉ bảo chi tiết củ gi o viên hướng dẫn, tôi đã hoàn thành luận văn ủa mình Tôi xin cam kết luận văn này là ủa bản thân tôi làm

và nghiên cứu, không hề trùng hay sao chép của bất kỳ ai

Tài liệu được sử dụng trong luận văn được thu thập từ các nguồn kiến thức hợp pháp

Tác giả luận văn

Phạm Thị Kim Dung

Trang 6

v

LỜI CẢM ƠN

Để hoàn thành hương trình o học và viết luận văn này, em đã nhận được

sự giúp đỡ và đóng góp nhiệt tình của các thầy ô trường Đại học Công nghệ thông tin và Truyền thông, Đại học Thái Nguyên

Trước hết, em xin chân thành cảm ơn thầy ô trong kho Đào tạo s u đại

họ , đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu trong suốt những năm học qua

Xin chân thành cảm ơn gi đình, bạn bè đã nhiệt tình ủng hộ, giúp đỡ, động viên cả về vật chất lẫn tinh thần trong thời gian học tập và nghiên cứu

Trong quá trình thực hiện luận văn, mặ dù đã rất cố gắng nhưng ũng không tránh khỏi những thiếu sót Kính mong nhận được sự cảm thông và tận tình chỉ bảo của các thầy cô và các bạn

Trang 7

vi

DANH MỤC CÁC TỪ VIẾT TẮT

Clustering Phân cụm

Computer Vision Nhìn máy

HAM Thư điện tử không là thứ rác

ISP Internet Service Provider, nhà cung cấp dịch vụ Internet KNN K người láng giềng gần nhất

MI Mutual inform tion, thông tin tương hỗ

Regression Hồi qui

Search Engine Máy tìm kiếm

Server Máy chủ, phía máy chủ

SMO Sequential Minimal Optimization

Spam Email Thư r

Stemming Gốc (của từ)

SVM Support Ve tor M hine, m y ve tơ tựa

UBE Unsolicited Bulk Em il, thư không lành mạnh

UCE Unsoli ited Commer i l Em il, thư không yêu ầu đến

Trang 8

vii

DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU HÌNH

Hình 1.1: Cấu trúc một hệ thống học máy tiêu biểu ho trường hợp phân loại 6

Hình 1.2 Mô hình thuật toán học có giám sát 8

Hình 1.3 Ví dụ về trang web lấy cắp địa chỉ thư ủ người dùng 17

Hình 1.4 Một số website của các công ty gửi thư r 18

Hình 1.5 Minh họa cách gửi thư r qu m y hủ thư (open rel y) 19

Hình 1.6 Số lượng thư r từ th ng 4 đến th ng 9 năm 2014 21

Hình 1.7 Danh sách các quố gi ph t t n thư r trong qu 3/2014 ủa Kaspersky Lab 23

Hình 2.1 Ánh xạ dữ liệu từ không gian gố s ng không gi n đặ trưng ho phép phân chia dữ liệu bởi siêu phẳng 38

Hình 2.2 Siêu phẳng với lề cự đại cho phép phân chia các hình vuông khỏi các hình tròn trong không gi n đặ trưng 38

Hình 2.3 Tiền xử lý dữ liệu 42

Hình 2.4 Huấn luyện dữ liệu 46

Hình 3.1: Mô hình phân loại thư r bằng 2 thuật toán Bayse và SVM 48

Hình 3.2 Tập các File trong HAM 51

Hình 3.3 Tập các File trong SPAM 51

Hình 3.4 Giao diện hương trình h nh ph n loại thư r bằng Bayes và SVM 52

Hình 3.5 Giao diện xử lý dữ liệu bước huấn luyện 53

Hình 3.6 Giao diện kết quả của thử nghiệm 53

Hình 3.7 Độ chính xác phân loại của NB và SVM 54

BẢNG Bảng 1.1 Ví dụ nội dung của bốn thư 24

Bảng 1.2 Biểu diễn ve tơ ho dữ liệu trong bảng 1.1 24

Bảng 2.1: Bộ dữ liệu huấn luyện cho bài toán phân loại “Chơi Tennis” 31

Bảng 3.1: Độ chính xác phân loại h i phương ph p ph n loại khác nhau 54

Trang 9

1

MỞ ĐẦU

Ngày nay, Internet mở ra nhiều kênh liên lạc, nhiều dịch vụ mới ho người

sử dụng, một trong những dịch vụ mà Internet mang lại là dịch vụ thư điện tử (Em il), đó là phương tiện giao tiếp rất đơn giản, tiện lợi và hiệu quả đối với cộng đồng người sử dụng dịch vụ này Chính vì những lợi ích do thư mang lại nên số lượng thư tr o đổi trên Internet ngày àng tăng, và một số không nhỏ trong đó là thư rác (Spam)

Trong những năm gần đ y, sp m h y thư không mong muốn đã trở thành một vấn nạn và đe dọa khả năng gi o tiếp củ on người trên kênh liên lạ này, đó

là một trong những thách thức lớn mà khách hàng và các nhà cung cấp dịch vụ phải đối phó Sp m đã trở thành một hình thức quảng cáo chuyên nghiệp, phát tán virus,

ăn ắp thông tin với nhiều thủ đoạn và mánh khóe cực kỳ tinh vi Người dùng sẽ phải mất khá nhiều thời gi n để xóa những thư “không mời mà đến”, nếu vô ý còn

có thể bị nhiễm virus và nặng nề hơn là mất thông tin như thẻ tín dụng, tài khoản ngân hàng qua các thư dạng phishing

Theo b o o tình hình thư r do K spersky L b vừa công bố, tỷ lệ thư r trong lưu lượng truy cập thư củ qu 3/2014 tăng 1,7 so với qu trướ , đạt trung bình 66,9% Ba nguồn phát t n thư r hàng đầu gồm có Mỹ (14 ) và Ng (6,1 )

nghiên cứu “Phân loại thư rác bằng phương pháp học máy” với mụ đ h tìm

hiểu, thử nghiệm một số phương ph p tiếp cận cho bài toán phân loại thư, từ đó ngăn hặn thư spam hiệu quả hơn

Nội dung của luận văn đượ trình bày theo 3 hương Tổ chức cấu trú như s u:

Trang 10

2

1 Chương 1 Tổng quan về họ m y và thư r : Chương này giới thiệu tổng quát về họ m y và thư r b o gồm khái niệm, ứng dụng và phần trình bày chi tiết về học máy có giám sát, các kỹ thuật của học máy có giám sát dùng cho phân loại như N ïve B yes, SVM, y quyết định,… Chương ũng giới thiệu khái quát về thư r , đặc trưng ủ thư r và biểu diễn thư r dựa trên học máy có giám sát;

2 Chương 2 Ph n loại thư r bằng một số thuật toán có giám sát: Nội dung h nh trong hương này là đi s u nghiên ứu hai thuật toán học

m y ó gi m s t là N ïve B yes và phương ph p SVM (Support Vector Machine)

3 Chương 3 Cài đặt, thử nghiệm và đ nh gi thuật toán: Phần đầu hương giới thiệu toán phân loại thư r , bộ dữ liệu thử nghiệm và cài đặt chi tiết hai thuật to n đề cập ở hương 2 Phần cuối củ hương trình bày kết quả thu đượ và đư r đ nh gi về hai thuật to n được

sử dụng trong bài toán lọ thư r Cuối luận văn là phần kết luận và danh sách các tài liệu tham khảo Phần thực nghiệm về phân loại thư r được trình bày thêm trong phần phụ lục luận văn

Trang 11

3

CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC

n qu n v m

r tu n n t o

Trướ đ y, mỗi khi nói đến Trí tuệ nhân tạo (TTNT) người t thường quan

t m đến việc tạo lập các máy tính có khả năng “suy nghĩ”, thậm chí trong một số phạm vi hẹp nào đó, ó thể cạnh tranh hoặ vượt quá khả năng ủa bộ não con người Những hy vọng này trong một thời gi n dài đã ảnh hưởng rất nhiều đến các nghiên cứu trong phòng thí nghiệm Mặc dù những mô hình tương tự các máy tính thông minh đã đượ đư r hàng nhiều năm trướ , nhưng hỉ từ khi Alan Turing công bố những kết quả nghiên cứu quan trọng đầu tiên, người ta mới bắt đầu thực

sự nghiên cứu đến các vấn đề TTNT một cách nghiêm túc Phát hiện của Turing cho rằng hương trình ó thể đượ lưu trữ trong bộ nhớ để s u đó được thực hiện trên ơ

sở phép to n ơ bản thao tác với bit 0, 1 Điều này đã tạo nên nền tảng của những máy tính hiện đại Việ lưu trữ hương trình trong m y ho phép th y đổi chứ năng ủa nó một cách nhanh chóng và dễ dàng thông qua việc nạp một hương trình mới vào bộ nhớ Theo một nghĩ nào đó, khả năng này làm ho m y t nh ó khả năng họ và suy nghĩ Đó ũng h nh là một trong những biểu hiện quan trọng đầu tiên của những m y t nh được trang bị TTNT

Trí tuệ nhân tạo (AI) là lĩnh vực khoa học chuyên nghiên cứu phương pháp chế tạo trí tuệ máy sao cho giống như tr tuệ on người [4]

Vài định nghĩ ủa trí tuệ nhân tạo điển hình là:

 Hệ thống mà biết suy nghĩ như on người

 Hệ thống mà biết hành động như on người

Để hệ thống mà biết suy nghĩ và hành động như on người thì hệ thống đó phải được trang bị các công cụ như th nh gi , tri thức, lý giải tự động, việc học, thị giác và di chuyển giống như on người Thông thường, cách giải quyết vấn đề của con người được thể hiện qua bốn th o t ơ bản đó là:

Trang 12

4

1 X định tập hợp củ đ h

2 Thu thập các sự kiện và luật suy diễn

3 Cơ hế tập trung

4 Bộ máy suy diễn

Như vậy, trí tuệ máy là các khả năng giải quyết vấn đề của máy, cần thỏa mãn:

1 Hành động giống như on người

2 Suy nghĩ giống như on người

3 Học giống như on người

4 Xử lý thông tin giống như on người

5 Hành động và suy nghĩ trên ơ sở logic và chính xác

Ứng dụng của trí tuệ nhân tạo có trong nhiều ngành kinh tế :

1 Điều khiển học, Robotic, giao diện người máy thông minh

2 Trò hơi m y t nh

3 Thiết bị điện tử thông minh nhờ sử dụng lôgic mờ

4 Hệ chuyên gia trong: giáo dụ , y kho , địa chất, quản lý,

5 Xử lý ngôn ngữ tự nhiên

6 Nhận dạng hình ảnh, âm thanh

7 Các hệ thống xử lý tri thức và dữ liệu tích hợp: cho phép xử l đồng thời tri thức và dữ liệu ( ơ sở dữ liệu suy diễn, biểu diễn luật đối tượng, hệ hỗ trợ quyết định)

8 Mô hình hóa các giải pháp bài toán

1.1 2 H m

Con người ó nhiều h họ như họ k ứ , họ sự kiện, thông qu sự

qu n s t và thăm dò, họ ải thiện kỹ xảo thông qu thự tiễn, họ qu sự ph t triển

ủ hệ thần kinh sinh họ on người, hoặ họ qu gen di truyền từ thế hệ trướ

Trang 13

5

Dù với h họ nào đi nữ , mụ tiêu ủ việ họ h nh là thu thập tri thứ mới, s u

đó xử l tri thứ này s o ho th h nghi đượ với tình huống, sự kiện mới Giống với h họ ủ đó, on người ũng muốn x y dựng hương trình họ ho m y

t nh s o ho m y ó khả năng thu thập tri thứ mới, từ đó xử l tri thứ để th h nghi đượ với tình huống ụ thể Đó là l do tại s o kỹ thuật họ m y đ ng àng ngày àng trở thành mối qu n t m lớn ủ ngành kho họ m y t nh hiện nay

Họ m y là một lĩnh vực củ tr tuệ nh n tạo liên qu n đến việc phát triển

kĩ thuật cho phép các máy tính có thể "họ Họ m y đượ xem là phương

ph p tạo r hương trình m y t nh sử dụng kinh nghiệm, qu n s t hoặ dữ liệu trong qu khứ để ải thiện ông việ ủ mình trong tương l i Chẳng hạn, m y t nh

ó thể họ h dự đo n dựa trên các mẫu, các ví dụ, hay học cách tạo ra các hành

vi phù hợp dựa trên quan sát trong quá khứ Xét một ví dụ là họ h đ nh ờ Chương trình ó thể qu n s t v n ờ nhằm ải thiện khả năng hơi ờ với mụ

đ h tăng số v n thắng trong tương l i Trong trường hợp này, kinh nghiệm đượ sử dụng để “họ ” h làm tốt hơn trong ông việ hơi ờ với tiêu h đ nh gi là số

v n thắng

3 C kĩ t uật m

Việ sử dụng những dạng kinh nghiệm và dạng biểu diễn kh nh u sẽ dẫn tới những kĩ thuật họ m y kh nh u Tuy nhiên hủ yếu, họ m y đượ ph n thành 3 loại h nh:

s t

Với h họ này, kinh nghiệm đượ ho một h tường minh dưới dạng đầu vào và đầu r ủ hàm đ h, v dụ ho trướ tập mẫu ùng nhãn ph n loại tương ứng

Họ ó gi m s t b o gồm ph n loại và hồi quy; trong đó ph n loại là dạng

họ ó gi m s t với hàm đ h nhận gi trị rời rạ và hồi quy là họ ó gi m s t với hàm đ h nhận gi trị liên tụ Sơ đồ một hệ thống họ m y điển hình trong trường hợp họ ó gi m s t (ph n loại) đượ thể hiện như trên hình sau

Trang 14

Hàm đích

Thí dụ mới (chưa gán nhãn)

Nhãn phân loại

Hình 1.1: Cấu trúc một hệ thống học máy tiêu biểu cho trường hợp phân loại

1.1.3.2 s t

Ngượ với họ ó gi m s t, họ không gi m s t là h họ mà kinh nghiệm

hỉ gồm mẫu và không ó nhãn hoặ gi trị hàm đ h đi kèm V dụ hỉ bằng

qu n s t thông thường về n nặng ủ mọi người, dần dần t họ đượ kh i niệm

“người béo”, “người bình thường” và “người gầy”

H i dạng họ không gi m s t phổ biến nhất là ph n ụm và họ luật kết hợp Trong trường hợp ph n ụm, đối tượng đượ ph n hi thành một số nhóm s o

ho mỗi nhóm gồm những đối tượng giống nh u và kh đối tượng ở nhóm kh

Họ luật kết hợp là h ph t hiện những đối tượng hoặ gi trị thuộ t nh thường xuất hiện ùng nh u, v dụ những mặt hàng thường xuyên đượ mu ùng nh u (b nh mì và sữ )

1.1.3.3 H c nửa giám sát

Học nửa giám sát là việc học có kết hợp các ví dụ có gắn nhãn và không gắn

nhãn để sinh một hàm hoặc một bộ phân loại thích hợp

1.1.3.4 t

Đối với dạng họ này, kinh nghiệm không đượ ho trự tiếp dưới dạng đầu vào/ đầu r Th y vào đó, hệ thống nhận đượ một gi trị tăng ường là kết quả ho một huỗi hành động nào đó Thuật to n ần họ h hành động để ự đại hó gi trị tăng ường V dụ ủ họ tăng ường là họ đ nh ờ, trong đó hệ thống không đượ hỉ dẫn nướ đi nào là hợp l ho từng tình huống mà hỉ biết kết quả toàn v n

ờ Như vậy, hỉ dẫn về nướ đi đượ họ một h gi n tiếp và ó độ trễ dưới dạng gi trị thưởng

Trang 15

7

1.1 4 Một số ứn dụn ủ m

Học máy có ứng dụng rộng khắp trong các ngành khoa học/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ Cụ thể một số ứng dụng thường thấy như:

1 Xử lý ngôn ngữ tự nhiên: xử l văn bản, giao tiếp người – m y, …

2 Nhận dạng : nhận dạng tiếng nói, chữ viết tay, vân tay, thị gi m y () …

6 Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein

7 Vật lý: phân tích ảnh thiên văn, t động giữa các hạt …

8 Phát hiện gian lận tài chính : gian lận thẻ tỉn dụng

9 Dự đo n hỉ số thị trường: Là ăn ứ gi trị một vài th m số hiện thời hoặ trong qu khứ để đư r dự đo n, hẳng hạn dự đo n gi hứng kho n, gi vàng,…

Ngoài những ứng dụng ó dạng ph n loại hoặ hồi quy một h tường minh

ở trên, họ m y ó thể dùng trong rất nhiều ứng dụng đòi hỏi r quyết định hoặ hành động một h thông minh

1.1 5 H ó i m s t

1.1.5.1 Việc h c

Học có giám sát là một kỹ thuật của ngành họ m y để xây dựng một hàm từ

dữ liệu huấn luyện Dữ liệu huấn luyện bao gồm các cặp đối tượng đầu vào (thường dạng ve tơ) và đầu ra thực sự Đầu ra của một hàm có thể là một giá trị liên tục

Trang 16

8 (gọi là hồi quy), hay có thể là dự đo n một nhãn phân lớp cho một đối tượng đầu vào (gọi là phân lớp) Nhiệm vụ củ hương trình học có giám sát là dự đo n gi trị của hàm cho một đối tượng bất kỳ là đầu vào hợp lệ, s u khi đã xem xét một số ví

dụ huấn luyện (nghĩ là, ặp đầu vào và đầu r tương ứng) Để đạt đượ điều này, hương trình học phải tổng quát hoá từ các dữ liệu sẵn ó để dự đo n những tình huống hư gặp phải theo một cách hợp lý Các ví dụ thường gặp của học có giám sát gồm việc phân loại các e-m il là thư r , ghi nhãn tr ng Web theo thể loại của chúng và nhận dạng chữ viết tay

Tóm lại mụ đ h h nh ủa bài toán họ ó gi m s t là để học một ánh xạ từ

x tới y Khi ho trước một tập huấn luyện gồm các cặp ( xi, yi ), trong đó yi  Y gọi

là các nhãn của các mẫu xi Nếu nhãn là các số, y( )y i T i[n] biểu diễn ve tơ cột của nhãn Hơn nữa, một thủ tục chuẩn là các cặp ( xi, yi ) được thử theo giả thiết phân bố ngẫu nhiên độc lập trên khắp X × Y

Mô hình chung của họ ó gi m s t đượ kh i qu t như hình sau

Hình 1.2 Mô hình thuật toán học có giám sát

Để giải quyết một bài to n nào đó ủa họ ó gi m s t, người ta phải xem xét nhiều bước khác nhau:

1 X định loại của các ví dụ huấn luyện Trước khi làm bất cứ điều gì, người làm nhiệm vụ phân lớp nên quyết định loại dữ liệu nào sẽ được

sử dụng làm ví dụ Chẳng hạn đó ó thể là một kí tự viết t y đơn lẻ, toàn tập một từ viết tay, hay toàn tập một dòng chữ viết tay

Trang 17

9

2 Thu thập tập huấn luyện Tập huấn luyện cần đặ trưng ho thực tế sử dụng của hàm chứ năng Vì thế, một tập đối tượng đầu vào được thu thập và đầu r tương ứng được thu thập, hoặc từ các chuyên gia hoặc từ việ đo dạc tính tốn

3 X định việc biểu diễn đặ trưng đầu vào cho hàm chứ năng ần tìm Sự chính xác của hàm chứ năng phụ thuộc lớn vào h đối tượng đầu vào được biểu diễn Thơng thường, đối tượng đầu vào được chuyển đổi thành một ve tơ đặ trưng, hứa một số các đặ trưng nhằm mơ tả ho đối tượng đĩ Số lượng đặ trưng khơng nên qu lớn

4 X định cấu trúc của hàm chứ năng ần tìm và giải thuật họ tương ứng Ví dụ người thực hiện quá trình phân lớp cĩ thể lựa chọn việc sử dụng mạng nơ-ron nhân tạo hay cây quyết định…

5 Hồn thiện thiết kế Người thiết kế sẽ chạy giải thuật học từ một tập huấn luyện thu thập được Các tham số của giải thuật học cĩ thể được điều chỉnh bằng cách tối ưu ho hiệu năng trên một tập con (gọi là tập kiểm chứng – validation set) của tập huấn luyện, hay thơng qua kiểm chứng chéo (cross-validation) Sau khi họ và điều chỉnh tham số, hiệu năng ủa giải thuật cĩ thể đượ đo đạc trên một tập kiểm tr độc lập với tập huấn luyện

Hiện n y đã ĩ rất nhiều thuật to n được sử dụng để tạo những trình học cĩ giám sát, phổ biến nhất là:

 Thuật tốn K láng giềng gần nhất (KNN)

 Mơ hình xác suất đơn giản, Nạve Bayes

 Phương ph p dùng m y ve tơ tựa SVM

 Phương ph p y quyết định

 Phương ph p mạng nơ ron nh n tạo

Trang 18

10

1.1.5.2 Thuật tốn K láng giềng gần nhất

KNN là phương ph p truyền thống khá nổi tiếng và đượ đ nh gi là một trong những phương ph p tố, theo tập dữ liệu Reuters phiên bản 21450, được sử dụng từ những thời kỳ đầu của việc phân loại văn bản

Khi cần phân loại một văn bản mới, thuật tốn sẽ tính khoảng cách (khoảng cách Ơ lit… của tất cả văn bản trong tập huấn luyện đến văn bản này đề tìm ra

k văn bản gần nhất (gọi là k “láng giềng", hay "hàng xĩm”), s u đĩ dựa trên khoảng cách này tính trọng số cho tất cả chủ đề Trọng số của một chủ đề chính là tổng tất

cả khoảng cách ở trên củ văn bản trong k hàng xĩm cĩ cùng chủ đề, chủ đề nào khơng xuất hiện trong k hàng xĩm sẽ cĩ trọng số bằng 0 S u đĩ hủ đề sẽ được sắp xếp theo mứ độ trọng số giảm dần và các chủ đề cĩ trọng số cao sẽ được chọn

là chủ đề củ văn bản cần phân loại

 y(di , cj) = 1 nếu câu hỏi di thuộc cụm cj; ngược lại y(di , cj) = 0

 sim (x, di) là độ tương đồng giữa câu hỏi phân loại x và câu hỏi di

 bj là ngưỡng phân loại của nhãn cj

1.1.5.3 Mơ hình xác suất Nạve Bayes

Kĩ thuật phân hoạch của Naive Bayes dự trên ơ sở định l B yes và đặc biệt phù hợp ho trường hợp phân loại ĩ k h thướ đầu vào là lớn Mặc dù

N ive B yes kh đơn giản nhưng nĩ ĩ khả năng ph n loại tốt hơn rất nhiều phương pháp phân hoạch phức tạp khác Với mỗi loại văn bản, thuật tốn Naive Bayes tính

Trang 19

11 cho mỗi lớp văn bản một xác suất mà tài liệu cần phân hoạch có thể thuộc loại đó Tài liệu đó sẽ được gán cho lớp văn bản nào có xác suất cao nhất Chi tiết về thuật toán Naive Bayes sẽ đượ trình bày kĩ ở hương 2

1.1.5.4 P ơ p p ây quyết định

Cây quyết định là một trong những kĩ thuật họ m y được nhiều người biết đến Chúng được áp dụng rộng rãi và đ dạng củ lĩnh vự đặc biệt là các ứng dụng trong trí tuệ nhân tạo Thành công củ phương ph p này được chứng minh bằng khả năng xử lí các vấn đề phức tạp theo cách trình bày một khả năng ó thể chấp nhận được dễ dàng cho việc diễn dịch và thậm chí còn có khả năng đư r kết luận từ các luật logic

Một số phương ph p đã đượ đề xuất để xây dựng các cây quyết định Những thuật to n này ó đầu vào là một tập các tài liệu mẫu đượ đư vào làm v

dụ Ở đó mỗi tài liệu đựơ mô tả bởi việc thiết lập các giá trị thuộ t nh và được gán cho các lớp Đầu ra là một cây quyết định bảo đảm sự phân hoạch cho các ví dụ đư vào Vấn đề h nh được nói rõ trong các thuật toán chuẩn của cây quyết định là kết quả có thể th y đổi bất chợt tùy thuộc vào dữ liệu Sự không chắc chắn đó ó thể xuất hiện trong các cấu tử hoặc có thể xuất hiện trong gi i đoạn phân hoạch Cây quyết định được sử dụng để phân hoạ h đối tượng mới Thuật giải trong cây quyết định được bắt đầu từ gốc của cây quyết định

Người t đ nh gi thử những thuộc tính có liên quan và chọn một nhánh tương ứng với sự lựa chọn đó Qui trình này sẽ được lặp đi lặp lại đến khi gặp phải một l Như vậy đối tượng mà t đ ng xét sẽ thuộc vào loại của lá mà ta vừa gặp phải Điều đó ũng ó nghĩ là thuật toán cây quyết định kết thúc khi mà quá trình phân tích gặp được một nút lá

1.1.5.5 P ơ p p ạng ơ ro

Phân loại văn bản bằng mô hình mạng nơ ron là một cách thức phân loại mới đượ đề xuất Cấu trúc và hoạt động của mạng nơ ron ơ bản dựa trên bộ não con người Mạng nơ ron được áp dụng trong khá nhiều lĩnh vực khác nhau và có khả

Trang 20

12 năng giải quyết các vấn đề phức tạp, phạm vi rộng Trong phân loại tài liệu có thể dùng mạng nơ ron để phân chia gần đúng tài liệu trong tập tài liệu thô đầu vào

Cấu trúc mạng nơ ron khá phức tạp, hầu hết các phần tử cấu thành mạng nơ ron là các nơ ron Chúng được phân chia thành các lớp khác nhau và có mối liên hệ với các nơ ron trong cùng lớp hoặc khác lớp Mối quan hệ giữa các nơ ron được biểu diễn bằng ung tròn ó đầu ra từ một nơ ron này và đầu vào từ một nơ ron khác, mối quan hệ giữa hai nơ ron lân cận nh u đặ trưng bằng trọng số w

Tuy nhiên, trong những năm gần đ y, một hình thức mới củ thư điện tử đã xuất hiện với số lượng lớn gây phiền hà ho người nhận và thiệt hại không nhỏ cho nền kinh tế mà ta gọi là thư r h y sp m em ils

Hiện n y hư ó một định nghĩ hoàn hỉnh và chặt chẽ về thư r Có qu n điểm chỉ oi thư r là những thư quảng o không được yêu cầu UCE, có quan điểm ó thư r với nghĩ rộng hơn, b o gồm cả thư quảng o, thư nhũng lạm (quấy rối), và những thư ó nội dung không lành mạnh UBE Dưới đ y sẽ đư r một định nghĩ thông dụng nhất về thư r và giải th h đặ điểm củ nó để phân biệt thư r với thư thông thường

Thư r (sp m) là những bứ thư điện tử không yêu cầu, không mong muốn

và được gửi hàng loạt tới nhiều người nhận “Thư không yêu ầu” ở đ y nghĩ là người nhận thư không yêu ầu người gửi gửi bứ thư đó “Thư được gửi hàng loạt”

Trang 21

13 nghĩ là bứ thư mà người nhận nhận được nằm trong một loạt thư được gửi đi cho nhiều người khác và các bứ thư này ó nội dung tương tự nhau

Một bứ thư được gọi là thư r hỉ khi nó là thư không yêu ầu và được gửi hàng loạt Nếu thư r hỉ là thư không mong muốn thì nó có thể là những bứ thư làm quen, được gửi lần đầu tiên, còn nến thư r hỉ là thư được gửi hàng loạt thì nó

có thể là những bứ thư gửi cho khách hành của các công ty, các nhà cung cấp dịch

vụ

Như định nghĩ ở trên, thư r là thư không yêu ầu và được gửi hàng loạt Nhưng yếu tố quan trọng nhất để phân biệt thư r với thư thông thường phải là ở nội dung bứ thư Khi một người nhận đượ thư r , người đó không thể x định đượ thư ó được gửi hàng loạt h y không nhưng ó thể nói h nh x đó là thư r sau khi xem nội dung thư Đặ điểm này h nh là ơ sở cho giải pháp phân loại thư rác bằng cách phân tích nội dung thư

1.2.1.2 C đặ tr của t r

Các loại thư r hiện này có một số đặ điểm sau:

1 Thư r được gửi đi một cách tự động: Mụ đ h ủa những kẻ gửi thư r là ó thể ph t t n lượng thư r tới người dùng càng nhiều càng tốt Do vậy, húng thường viết ra những phần mềm tự động gửi một lượng lớn thư r trong một khoảng thời gian ngắn

2 Thư r được gửi đến những địa chỉ ngẫu nhiên trên một diện rộng: Địa chỉ thư điện tử củ người bị nhận thư r rất ngẫu nhiên và hầu như không ó sự ràng buộc với nhau Có nhiều phương ph p và thủ thuật khác nhau mà những kẻ gửi thư r p dụng trong việc dò tìm địa chỉ thư củ người dùng như:

3 Dùng hương trình tự động dò tìm địa chỉ thư trên mạng Internet, các trang chủ, Ch t room,…

4 Mu địa chỉ thư từ những ông ty đã x y dựng danh sách khách hàng của họ nhưng vì l do nào đó phải b n đi hoặ đối tác của công ty

Trang 22

14 được phép truy cập dánh sách khách hàng củ ông ty này để gửi thông tin về dịch vụ hay sản phẩm

5 Thư chuỗi từ bạn bè và người thân, yêu cầu gửi thư ho àng nhiều người càng tốt vì lý do giúp đỡ người bị bệnh, ủng hộ một hương trình nào đó, hoặc mời hào người dùng nếu không muốn nhận xui xẻo hoặc muốn nhận được nhiều tiền hơn…

6 Dùng hương trình đo n tên tự động: Những kẻ gửi thư r dùng hương trình này gửi thư liên tục vào một nơi để đo n địa chỉ thư qua những phương ph p như E – pending, Alph bet,…

7 Bên cạnh đó, những kẻ gửi thư r òn ó thể ó đượ địa chỉ thư của người dùng do các nhà cung cấp dịch vụ ISP không có chính sách và công nghệ bảo mật, dẫn đến các tin tặc, ăn ắp địa chỉ của khách hàng

để buôn bán và quấy nhiễu Hoặc có thể do chính nhà cung cấp ISP buôn b n địa chỉ thư củ kh h hàng để kiếm lợi nhuận Nhân viên

củ ISP đã tiết lộ thông tin về kh h hàng ho đối thủ cạnh tranh củ h nh ISP đó hoặc cho những công ty muốn quảng cáo cho những khách hàng riêng biệt

Nội dung củ thư r thường là những nội dung bất hợp pháp, gây phiền hà

ho người dùng: Phần lớn nội dung củ thư r là những thông tin mời chào về

thương mại, quảng cáo sản phẩm Bên cạnh đó, phải kể đến những thư r ó nội dung xấu (như hống phá chính trị,…) g y t m l lo ngại ho ngưòi sử dụng Lượng thư r ph t t n virus ũng không nhỏ Trong những thư này thường kèm những con virus nguy hiểm có thể làm tê liệt hoàn toàn máy tính củ người dùng, ăn cắp những thông tin cá nhân hoặc làm hỏng dữ liệu lưu trên m y Hiện nay, những thư r với nội dung hứa hẹn m ng đến may mắn, hoặc một khoản tiền lớn ho người đọ thư

r ũng r tăng đ ng kể Những người dùng kém hiểu biết, cả tin thường bị lừa với

hình thức này

Địa chỉ củ người gửi thư r thường là những địa chỉ tr hình: Để tránh sự nghi ngờ củ người nhận, một số kẻ gửi thư r thường giả dạng địa chỉ của một

Trang 23

15 người dùng bình thường trong một máy chỉ thư nào đó một cách bất hợp pháp hoặc

dùng một địa chỉ ảo nào đó để gửi thư r

2 2 P n lo i t ư r

Việc phân loại thư r rất quan trọng không chỉ trong lĩnh vực tạo những bộ

lọ thư r phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thư r th h hợp Có rất nhiều cách phân loại thư r Dưới đ y là một số loại điển hình nhất

1 Dựa trên kiểu ph t t n thư r : T nh tới thời điểm hiện tại, thư r ó thể được gửi thông qua hình thứ thư điện tử, nhóm thảo luận (newsgroups), điện thoại di động SMS, và các dịch vụ gửi tin nhắn trên mạng (như Y hoo Messenger, Windows Messenger…)

2 Dựa vào quan hệ với người gửi thư r : Các mối quan hệ với người gửi thư r b o gồm người lạ mặt, bạn bè, người quen và các dịch vụ quyên góp giúp đỡ…

3 Dựa vào nội dung củ thư r : C kiểu nội dung phổ biến như thư về thương mại, thư về chính trị, thư về công nghệ, chuỗi thư ( h in email) và các loại kh (như thư ph t t n virus )

4 Dự trên động lực củ người gửi: Thông thường, thư r được gửi đi cho những mụ đ h quảng bá thông tin Ngoài ra, còn có một số loại thư r được gửi tới một người nhận x định nào đó nhằm mụ đ h phá vỡ và gây cản trở công việc củ người nhận hay mạng của nhà cung cấp dịch vụ thư điện tử ESP, được gọi là “bom thư” Thư r òn được cố ý gửi đi nhằm thông báo tin sai lệch, làm xáo trộn công việc

và cuộc sống củ người nhận

2 3 Đặ điểm t ư rác

Đặc tính chung củathư r là không ràng buộc về mặt nội dung Phần lớn các thư r tuân theo các mẫu chung và có thể được nhận diện một cách rõ ràng Ngoài

Trang 24

16

ra, các thư rác ó đặ điểm về ngôn ngữ, thời gian Hầu hết cácthư r này đều được viết bằng tiếng Anh với tỉ lệ rất o hơn 80

Đặ điểm chính củathư r khác biệt với thư thông thường đó là

 Không ai yêu cầu

 Người nhận không qu n t m đến thông tin trong thư mình nhận được

 Không rõ người gửi Người nhận không biết, không có bất cứ liên hệ nào với người gửi

 Thư này được gửi đến một số lượng lớn địa chỉ Thể loại thư r rất đ dạng phần lớn tập trung vào quảng cáo, lừ đảo, phần mềm giá rẻ, nội dung không lành mạnh

2 4 i ủ t ư r

Thư r hiện chiếm một tỷ lệ rất lớn trong tổng số thư điện tử được gửi qua Internet Theo các thống kê kh nh u, thư r hiếm từ 71 đến 87 lượng thư gửi qua các máy chủ thư điện tử Lượng thư r qu lớn gây ra nhiều tác hại đối với

sự phát triển Internet nói hung và người sử dụng thư điện tử nói riêng Có thể kể ra một số tác hại củ thư r :

 Thư r g y thiệt hại về kinh tế ho người nhận thư trong trường hợp người nhận thư phải trả tiền ho lượng thông tin truyền qua mạng

 Thư r ó thể làm đầy hộp thư người nhận và do vậy làm thất lạc những thư bình thường đến sau

 Thư r làm tốn thời gi n do người nhận phải mở thư và xo thư khỏi hộp thư ủa mình

 Thư r g y t m l xấu đối với người sử dụng thư điện tử Theo thống kê tại http://www.pewinternet.org, 25 người sử dụng thư điện tử oi thư r là trở ngại lớn khi sử dụng dịch vụ Internet này

Trang 25

17

 Thư r hiếm một phần đường truyền Internet và làm tốn thời gian xử lý của máy chủ

1.2.5 Quy trình và thủ đoạn gửi thư rác

Để ph t t n thư r , những người gửi thư r phải ó được những điều kiện sau: một là ó d nh s h địa chỉ thư nhận thư, h i là ó server ho phép gửi thư,

ba là phải soạn được nội dung thư theo yêu ầu quảng cáo và qua mặt được các bộ lọc nội dung, cuối cùng cần có những hương trình để gửi thư đi

1.2.5.1 Thu thập địa chỉ t

Để gửi thư r đi, người gửi thư r ần phải có một d nh s h địa chỉ thư cần gửi D nh s h địa chỉ thư này có thể thu thập được từ nhiều nguồn khác nhau, họ có thể mua từ tr ng web thương mại có nhiều thành viên đăng k hoặc

sử dụng các kỹ thuật như trong v dụ 1.3 để ó đượ địa chỉ thư củ đối tượng cần gửi thư

Người gửi thư r (hoặ đối tác của họ) thường tung ra các trang web giả để

bẫy người dùng gửi địa chỉ thư cho họ Kỹ thuật này được gọi là Phishing email

Hình 1.3 Ví dụ về trang web lấy cắp địa chỉ thư của người dùng

Trang 26

18 Người gửi thư r òn sử dụng các máy tìm kiếm chỉ để tìm kiếm địa chỉ thư trên các trang web Các máy tìm kiếm này sẽ tìm kiếm những trang có kí hiệu “@”

và sẽ t h địa chỉ thư từ đó r Những hương trình tìm kiếm thư theo kiểu như vậy

òn được gọi là spambots

D nh s h địa chỉ ũng ó thể được sinh tự động theo một ơ hế nào đó

để xác suất tồn tại củ địa chỉ sinh tự động có thể chấp nhận đượ Địa chỉ thư thường được tạo ra nhờ kết hợp giữa các họ tên phổ biến với các domain nhiều

người dùng và các con số ó nghĩ V dụ như địa chỉ thư đượ sinh như s u: Từ địa chỉ gốc là: PhamKimDung+ @ + gmail.com.vn, có thể sinh r địa chỉ sau:

gọi là s địa chỉ t theo kiểu từ đ ển

1.2.5.2 Tìm kiếm các máy tính trên Internet cho phép gửi thư

Muốn gửi đượ thư r , người gửi thư r ần có trong tay một danh sách các server để gửi thư đi C server này ó thể là những server huyên để gửi thư r do người gửi thư r sở hữu hoặc thuê, hoặc là những server bị người gửi thư r lợi dụng

Hình sau đư r một ví dụ về trang quảng cáo của một số công ty chuyên tung thư r được Google liệt kê khi tìm kiếm hai từ “bulk m il”:

Hình 1.4 Một số website của các công ty gửi thư rác

Trang 27

19 Người gửi thư r thường khai thác lỗ hổng của những server cho phép chuyển tiếp thư (open relay) hoặc những proxy mở cho phép gửi thư (open proxy)

Ví dụ quan sát hình trên minh họa cách gửi thư r qu m il server (open rel y)

Hình 1.5 Minh họa cách gửi thư rác qua máy chủ thư (open relay)

Trên mạng Internet thường có rất nhiều mail server cho phép chuyển tiếp thư Người gửi thư r h y sử dụng server này để chuyển tiếp thư r vì khi đó

họ sẽ khó bị phát hiện hơn và huyển được các gánh nặng về đường truyền sang cho server đó Tuy nhiên những mail server dạng này thường sớm bị đư vào danh

s h đen (d nh s h những địa chỉ IP bị chặn) của các bộ lọ thư r và không thể tiếp tục gửi thư r được nữa

Một loại server khác là các proxy cho phép gửi thư ũng đượ người gửi thư

r đặc biệt yêu thích Mụ đ h ủa những proxy này là giúp tr ng web vượt

qu đượ tường lửa (firewall) Một số proxy cho phép gửi thư và bất cứ i ũng ó thể truy cập đượ Người gửi thư r lợi dụng điểm này để ph t t n thư r Khi sử dụng những proxy này, người gửi thư r hầu như không bị phát hiện Mặt khác, việc lợi dụng này thường được lâu dài vì những người quản lý proxy không quan tâm tới việc proxy có bị liệt kê trong d nh s h đen ủa các bộ lọc hay không (vì

mụ đ h h nh ủa proxy không phải để gửi thư)

Ngoài hai cách trên, những người gửi thư r òn thuê m y t nh “m ” để gửi thư r Vì đ y là m y t nh không được quản lý nên khó có thể pháp hiện ra

Trang 28

20 tác giả của các bứ thư r Thêm nữa việc thuê các máy tính này lại khá rẻ nên có tới 40% - 60 người gửi thư r bắt đầu từ chiêu thức này

Không chỉ dừng lại ở việ đi thuê m y t nh m , những người gửi thư r (và ũng là những tin tặc) còn chiếm quyền kiểm soát các máy tính hợp ph p để gửi thư

r Tim Cr nton, gi m đốc bộ phận bảo mật Internet của Microsoft nhận định:

”Việc sử dụng các hệ thống m y t nh m để thực hiện hành động tội phạm qua Internet hiện n y đ ng gi tăng hóng mặt và gây nguy hại đến toàn bộ cộng đồng

sử dụng máy tính trên thế giới” Vào đầu năm 2005, Mi rosoft đã tiến hành khảo sát thử một máy tính bị nhiễm mã độ và đã bị tin tặc nắm quyền điều khiển từ xa, tức

m y t nh này đã trở thành một máy tính ma Kết quả khảo nghiệm cho thấy rằng chỉ trong vòng 20 ngày, m y t nh m này đã nhận được 5 triệu yêu cầu kết nối từ những người thư r và h nh nó ũng đã gửi tới 18 triệu thư r Trong những ngày cao điểm nhất, m y t nh m này đã nhận đượ đến 470.000 yêu cầu kết nối và khoảng 1,8 triệu thư r đã từ nó gửi đi

3 Biểu diễn p n lo i t ư r dự trên m ó i m s t

3 N u ầu p n lo i t ư r

1.3.1.1 ố đ p t tr ể ủa t r

Thư r đ ng đượ oi là một nạn “lớn” trên mạng Internet Theo số liệu thống kê ủ hãng bảo mật Symantec cho biết, ó tổng số 70 tỷ thư r được gửi đi mỗi ngày trên toàn cầu, những thư với nội dung mời gọi mu dược phẩm chiếm tới 64% (khoảng 60 tỷ bức)

Cũng theo số liệu báo cáo của cổng thông tin được tạo bởi Kaspersky Lab có địa chỉ www.securelist.com từ th ng 4 đến th ng 9 năm 2014, số lượng thư r đã tăng đ ng kể, đạt tới mức cao nhất từ trước tới n y Tuy nhiên, đến các tháng sau, lượng thư r ó giảm

Số lượng thư r từ th ng 4 đến th ng 9 năm 2014 [16]:

Trang 29

21

Hình 1.6 Số lượng thư rác từ tháng 4 đến tháng 9 năm 2014

Mặ dù vậy, điều đó không ó nghĩ là người tạo r thư r đã dừng lại

mà ngày àng ó nhiều m nh khóe hơn Gi m đốc Nghiên cứu về Điều tra hình sự trong lĩnh vực máy tính, thuộ Đại họ Al b m (Birmingh m, Anh), Gr y W rner nói: “Những bộ lọc thư r củ húng t đ ng dần kém hiệu quả, nhưng điều chúng

ta nhìn thấy là hoạt động thư r đ ng được tiến hành một h tinh vi hơn”

Thư r òn ó thể được gửi đến từ thư của những người bạn, giới thiệu một hiệu thuốc online hoặc mời xem một video Các tội phạm mạng có thể bẻ khóa vào tài khoản Hotmail hay Gmail, và gửi thư cho tất cả mọi người trong sổ địa chỉ của nạn nhân Hình thức thư r thông qua cách gửi thư giữ h i người quen biết kiểu này thường thành ông o hơn khi vượt qua các công cụ lọc thư r

Tương tự, những m nh khóe này ũng đ ng được áp dụng trên Facebook, YouTube h y Twitter Đôi khi người tạo thư r gửi các tin nhắn từ địa chỉ của nhà cung cấp dịch vụ tới người dùng Đôi khi húng lại hack một tài khoản và gửi đi tin nhắn hàng loạt từ đó

Trong khi đó, việc tìm kiếm cách thức mới để phát t n tin r ũng luôn được tiến hành Hình thức gửi thư có vẻ như đã lỗi thời và không òn đem lại hiệu quả như trước kia, khi mà những người dùng Internet trẻ ó xu hướng thích nhận tin

Trang 30

Nhà phân tích Graham Cluley cho biết chủ nhân của máy tính có thể không biết khi nào máy tính hoặc thiết bị của họ bị sử dụng để chuyển tiếp thư r Phần lớn thư r đến từ m y t nh nh n gi đình bị tin tặc thâm nhập và điều khiển tham gia vào một nhóm botnet", ông Cluley viết trên blog củ Sophos như vậy

Ông Cluley nhấn mạnh trong khi ph t t n thư r ó nội dung tiếp thị ơ bản

đã giảm kể từ năm ngo i nhưng số thư r ph t t n mã độc hoặc nhắm đến lừ đảo người dùng để lấy mật khẩu, tài khoản và thông tin cá nhân lại đ ng gi tăng

Còn theo ông T ty n Sh herb kov , Nhà Ph n t h thư r o ấp tại Kaspersky Lab cho biết: “Mặ dù húng tôi đã nhìn thấy sự giảm thiểu một số lượng nhỏ thư r trong lưu lượng truy cập thư, nhưng một số xu hướng cảnh báo vẫn còn rõ ràng Chúng tôi phát hiện rất nhiều tệp đ nh kèm độc hại nhắm mụ tiêu đến dữ liệu cá nhân củ người sử dụng, bao gồm cả thông tin tài chính Số lượng phát hiện các trang web lừ đảo nhắm đến tiền củ người sử dụng đ ng tăng trưởng

đ ng kể

Việt Nam có tên trong danh sách của Kaspersky Lab [15] được thể hiện trong hình sau

Trang 31

23

Hình 1.7 Danh sách các quốc gia phát tán thư rác trong quí 3/2014

của Kaspersky Lab

3 2 C biểu diễn nội dun t ư r

1.3.2.1 Biểu diễn n du t d ới dạng tập hợp từ (“tú từ”)

Để có thể sử dụng kỹ thuật học máy và xác suất thống kê, nội dung thư ần được biểu diễn dưới dạng thuận tiện cho việc áp dụng thuật toán học máy Các phương ph p lọ thư bằng cách tự động phân loại theo nội dung đều sử dụng cách biểu diễn thư dưới dạng vé tơ Mặc dù có nhiều cách xây dựng vé tơ nhưng h

đơn giản nhất là mô hình “túi từ” (“b g-of-words”) Nguyên tắ ơ bản củ phương

pháp này là không quan tâm tới vị trí xuất hiện các từ hay cụm từ trong thư mà oi thư như một tập hợp không có thứ tự các từ Mỗi thư khi đó được biểu diễn bởi một

vé tơ Số phần tử củ vé tơ bằng số lượng từ khác nhau trên toàn bộ tập dữ liệu huấn luyện

Có nhiều cách tính giá trị các phần tử của ve tơ C h đơn giản nhất là sử dụng giá trị nhị phân: mỗi phần tử củ vé tơ bằng 1 hay 0 tuỳ thuộc vào từ tương ứng có xuất hiện trong thư tương ứng với vé tơ h y không

Trang 32

24

C phương ph p phức tạp hơn thường dựa vào tần suất xuất hiện của từ trong thư Từ xuất hiện càng nhiều thì phần tử tương ứng của ve tơ có giá trị càng lớn và ngược lại

Dưới đ y là một ví dụ đơn giản minh hoạ cho cách biểu diễn nội dung nói trên Dữ liệu huấn luyện bao gồm bốn thư, trong đó h i thư là thư r và h i là thư bình thường Nội dung thư được cho trong bảng 1.2 Trên bảng 1.3 là biểu diễn

vé tơ ho thư trong bảng 1.2 Chú ý là trong ví dụ này chỉ sử dụng các từ đơn

âm, những phần tiếp theo sẽ đề cập tới từ gồm nhiều âm của tiếng Việt

Bảng 1.1 Ví dụ nội dung của bốn thư

Bảng 1.2 Biểu diễn vec tơ cho dữ liệu trong bảng 1.1

Số TT mua Và trúng thưởng một tặng em Rồi vừa gửi xong

“spe king” được biến đổi thành “spe k” Ngoài r , liên từ hoặc những từ không

ó nghĩ như “và”, “nhưng”.v.v trong tiếng Việt h y “ nd”, “the”.v.v trong tiếng Anh sẽ được loại bỏ do không có liên quan trực tiếp tới nghĩ ủ thư

Trang 33

25 Trên các tập dữ liệu mẫu thực, số lượng từ khác nhau có thể lên tới hàng chụ nghìn tương ứng với số lượng phần tử trong mỗi vé tơ Trong phần sau sẽ

đề cập tới kỹ thuật giảm bớt số lượng từ dùng để biểu diễn thư

Phương ph p biểu diễn thư sử dụng “túi từ” trình bày ở trên bỏ qua thông tin

về vị trí xuất hiện và thứ tự các từ trong thư Những thông tin này có thể có giá trị quan trọng trong việc phát hiện thư r Tuy nhiên, do đơn giản, phương ph p “túi từ” vẫn là phương ph p biểu diễn nội dung thư thông dụng nhất, mặ dù ó nhược điểm vừa nêu Trong nghiên cứu này, tôi ũng sử dụng phương ph p túi từ và các

mở rộng củ phương ph p này để biểu diễn nội dung thư điện tử

1.3.2.2 M t số p ơ p p ểu diễn n du t

Để có cái nhìn toàn diện về vấn đề biểu diễn nội dung thư, trong phần này luận văn sẽ trình bày tóm tắt một số phương ph p biểu diễn nội dung thư kh với phương ph p “túi từ” và ph n t h l do không sử dụng những phương ph p này cho lọ thư r

Lọ thư theo nội dung là trường hợp riêng của bài toán phân loại văn bản trong đó thư được phân loại thành thư r hoặ thư hợp lệ dựa trên nội dung văn bản củ thư Bộ lọ thư r , do vậy, có thể sử dụng những phương ph p biểu diễn nội dung thư kh đượ đề xuất cho các ứng dụng phân loại văn bản nói chung

Đặ điểm chung củ phương ph p không dùng “túi từ” là sử dụng đặc trưng hứa nhiều thông tin về và ngữ nghĩ hơn để biểu diễn nội dung văn bản Tiêu biểu nhất là phương ph p sử dụng cụm từ có ngữ nghĩ và phương ph p sử dụng phân cụm từ (word lusters) Dưới đ y là mô tả tóm tắt phương ph p trên

1 Sử dụng cụm từ (phrase) có ngữ nghĩ để biểu diễn văn bản;

2 Sử dụng phân cụm từ (word luster) để biểu diễn văn bản

1.3.2.3 Sử dụng cụm từ (phrase) có ngữ ĩa để biểu diễ v ản

Khái niệm cụm từ dùng để chỉ đơn vị văn bản dài hơn từ đơn nhưng ngắn

hơn u thông thường và có ngữ ĩa r ê Ví dụ “nghiên ứu khoa họ ” là ụm

từ theo định nghĩ này Sử dụng cụm từ để biểu diễn văn bản ó h i ưu điểm chính như s u:

Ngày đăng: 13/12/2016, 09:53

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] Nguyễn Th nh Hùng (2006), “Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng thuật di truyền và thống kê trên Internet”, Chuyên san nghiên cứu tạp í u í v ễn thông, số 16 Sách, tạp chí
Tiêu đề: Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng thuật di truyền và thống kê trên Internet”
Tác giả: Nguyễn Th nh Hùng
Năm: 2006
[4] Trần Ngân Bình, Võ Huỳnh Tr m, “Trí tuệ nhân tạo”, Đại học Cần thơ Phiên bản trực tuyến: http://voer.edu.vn/c764b3239TIẾNG ANH Sách, tạp chí
Tiêu đề: Trí tuệ nhân tạo
[5] C. BURGES (1998), “A tutori l on Support Ve tor M hines for p ttern re ognition”, Pro eedings of Int Conferen e on D t Mining nd Knowledge Discovery, Vol 2, No 2, (pp 121-167) Sách, tạp chí
Tiêu đề: A tutori l on Support Ve tor M hines for p ttern re ognition
Tác giả: C. BURGES
Năm: 1998
[6] C. Cortes and V. Vapnik. Support-Ve tor Networks, “M hine Le rning”, 20, 1995 Sách, tạp chí
Tiêu đề: M hine Le rning
[7] M. F. C ropreso, S. M twin, nd F. Seb sti ni. “A le rner-independent ev lu tion of the usefulness of st tisti l phr ses for utom ted text tegoriz tion”.In A. G. Chin, editor, Text Databases and Document Management: Theory and Practice, pages 78-102. 2001 Sách, tạp chí
Tiêu đề: A le rner-independent ev lu tion of the usefulness of st tisti l phr ses for utom ted text tegoriz tion
[9] J. Pl tt. Sequenti l minim l optimiz tion: “A f st lgorithm for tr ining support ve tor m hines”. Te hni l Report 98-14, Microsoft Research, Redmond, Washington, April 1998 Sách, tạp chí
Tiêu đề: A f st lgorithm for tr ining support ve tor m hines
[10] Kririt henko, M twin (2001),“Em il l ssifi tion with o-tr ining”. Proceeding CASCON '01 Proceedings of the 2001 conference of the Centre for Advanced Studies on Collaborative research Sách, tạp chí
Tiêu đề: Em il l ssifi tion with o-tr ining
Tác giả: Kririt henko, M twin
Năm: 2001
[11] M.F. Porter, 1980, “An lgorithm for suffix stripping”, Progr m, 14(3) pp 130−137 Sách, tạp chí
Tiêu đề: An lgorithm for suffix stripping
[13] T. Jo hims (1999), “Tr nsdu tive Inferen e for Text Cl ssification using Support Ve tor M hines”, Intern tion l Conferen e on M hine Le rning (ICML), 1999 Sách, tạp chí
Tiêu đề: Tr nsdu tive Inferen e for Text Cl ssification using Support Ve tor M hines
Tác giả: T. Jo hims
Năm: 1999
[1] Đinh Thị Phương Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng, Phương án xây dựng tập mẫu cho bài toán phân lớp văn bản tiếng Việt, nguyên lý, giải thuật, thử nghiệm và đ nh gi kết quả, Tạp chí Khoa học và công nghệ, 2005 Khác
[12] R. Bekkerman, R. El-Yaniv, N. Tishby, and Y. Winter. Distributional word clusters vs. words for text categorization. Journal of Machine Learning Research, 3:1183-1208, 2003 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Cấu trúc một hệ thống học máy tiêu biểu cho trường hợp phân loại - Phân loại thư rác bằng phương pháp học máy
Hình 1.1 Cấu trúc một hệ thống học máy tiêu biểu cho trường hợp phân loại (Trang 14)
Hình 1.2. Mô hình thuật toán học có giám sát - Phân loại thư rác bằng phương pháp học máy
Hình 1.2. Mô hình thuật toán học có giám sát (Trang 16)
Hình 1.5. Minh họa cách gửi thƣ rác qua máy chủ thƣ (open relay) - Phân loại thư rác bằng phương pháp học máy
Hình 1.5. Minh họa cách gửi thƣ rác qua máy chủ thƣ (open relay) (Trang 27)
Hình 1.6. Số lƣợng thƣ rác từ tháng 4 đến tháng 9 năm 2014 - Phân loại thư rác bằng phương pháp học máy
Hình 1.6. Số lƣợng thƣ rác từ tháng 4 đến tháng 9 năm 2014 (Trang 29)
Hình 1.7. Danh sách các quốc gia phát tán thƣ rác trong quí 3/2014 - Phân loại thư rác bằng phương pháp học máy
Hình 1.7. Danh sách các quốc gia phát tán thƣ rác trong quí 3/2014 (Trang 31)
Bảng 1.2. Biểu diễn vec tơ cho dữ liệu trong bảng 1.1 - Phân loại thư rác bằng phương pháp học máy
Bảng 1.2. Biểu diễn vec tơ cho dữ liệu trong bảng 1.1 (Trang 32)
Hình 2.2. Siêu phẳng với lề cực đại cho phép phân chia các hình vuông khỏi - Phân loại thư rác bằng phương pháp học máy
Hình 2.2. Siêu phẳng với lề cực đại cho phép phân chia các hình vuông khỏi (Trang 46)
Hình 2.1. Ánh xạ dữ liệu từ không gian gốc sang không gian đặc trƣng cho - Phân loại thư rác bằng phương pháp học máy
Hình 2.1. Ánh xạ dữ liệu từ không gian gốc sang không gian đặc trƣng cho (Trang 46)
Hình 2.3. Tiền xử lý dữ liệu - Phân loại thư rác bằng phương pháp học máy
Hình 2.3. Tiền xử lý dữ liệu (Trang 50)
Hình 3.1: Mô hình phân loại thƣ r   bằng 2 thuật toán Bayse và SVM - Phân loại thư rác bằng phương pháp học máy
Hình 3.1 Mô hình phân loại thƣ r bằng 2 thuật toán Bayse và SVM (Trang 56)
Hình 3.2. Tập các File trong HAM - Phân loại thư rác bằng phương pháp học máy
Hình 3.2. Tập các File trong HAM (Trang 59)
Hình 3.3. Tập các File trong SPAM - Phân loại thư rác bằng phương pháp học máy
Hình 3.3. Tập các File trong SPAM (Trang 59)
Hình 3.4. Giao diện chương trình chính phân loại thư rác bằng Bayes và SVM - Phân loại thư rác bằng phương pháp học máy
Hình 3.4. Giao diện chương trình chính phân loại thư rác bằng Bayes và SVM (Trang 60)
Hình 3.6. Giao diện kết quả của thử nghiệm - Phân loại thư rác bằng phương pháp học máy
Hình 3.6. Giao diện kết quả của thử nghiệm (Trang 61)
Bảng 3.1: Độ chính xác phân loại hai phương pháp phân loại khác nhau - Phân loại thư rác bằng phương pháp học máy
Bảng 3.1 Độ chính xác phân loại hai phương pháp phân loại khác nhau (Trang 62)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN