1. Trang chủ
  2. » Luận Văn - Báo Cáo

[Báo cáo + slide] Thuật toán Bayes và ứng dụng thuật toán trong việc lọc thư rác

33 682 7

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 528,61 KB
File đính kèm Bayes.rar (1 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tài liệu bao gồm slide và Báo cáo.Môn: Hệ trợ giúp quyết địnhMỤC LỤCLỜI MỞ ĐẦUTÀI LIỆU THAM KHẢONỘI DUNGI.GIỚI THIỆU1.Tổng quan2.Ví dụ dẫn dắtII.CƠ SỞ LÝ THUYẾT1.Phát biểu định lý Bayes2.Mô tả thuật toánIII.PHÂN LỚP1.Định nghĩa2.Các mô hình xác suất Naive Bayes3.Xây dựng một classifier từ mô hình xác suất4.Thuật toán phân loại văn bản Naive BayesIV.ỨNG DỤNG1.Đặt vấn đề2.Bài toánKẾT LUẬN

Trang 1

NHẬN XÉT VÀ ĐÁNH GIÁ

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

Trang 2

MỤC LỤC

LỜI MỞ ĐẦU 3

TÀI LIỆU THAM KHẢO 4

NỘI DUNG 5

I GIỚI THIỆU 5

1 Tổng quan 5

2 Ví dụ dẫn dắt 6

II CƠ SỞ LÝ THUYẾT 7

1 Phát biểu định lý Bayes 7

2 Mô tả thuật toán 7

III PHÂN LỚP 12

1 Định nghĩa 12

2 Các mô hình xác suất Naive Bayes 12

3 Xây dựng một classifier từ mô hình xác suất 13

4 Thuật toán phân loại văn bản Naive Bayes 13

IV ỨNG DỤNG 18

1 Đặt vấn đề 18

2 Bài toán 18

KẾT LUẬN 26

Trang 3

LỜI MỞ ĐẦU

Trong xu thế phát triển hiện nay trên thế giới khoa học và côngnghệ luôn có những thay đổi mạnh mẽ Sự phát triển như vũ bão củaCNTT đã tác động mạnh mẽ và to lớn đến mọi mặt đời sống kinh tế

xã hội Ngày nay, CNTT đã trở thành một trong những động lực quantrọng nhất của sự phát triển Với khả năng số hoá mọi loại thông tin(số, đồ thị, văn bản, hình ảnh, tiếng nói, âm thanh.), máy tính trởthành phương tiện xử lý thông tin thống nhất và đa năng, thực hiệnđược nhiều chức năng khác nhau trên mọi dạng thông tin thuộc mọilĩnh vực: nghiên cứu, quản lý, kinh doanh,

Với vốn kiến thức được học tại trường và nhu cầu cấp thiết của xã

hội cộng thêm gợi ý của giảng viên bộ môn – cô Đoàn Thị Thanh

Hằng, nhóm em đã chọn đề tài “Thuật toán Bayes và ứng dụng”

với mong muốn giúp cho việc xây dựng, lựa chọn các quyết địnhđược thực hiện một cách dễ dàng hơn, thuận tiện và giảm thiểuđược các sai xót

Trong quá trình góp nhặt những kiến thức quý báu , nhờ sự

quan tâm hướng dẫn của cô Đoàn Thị Thanh Hằng, chúng em đã

từng bước nghiên cứu và vận dụng các kiến thức đã được học để tìmhiểu, phân tích Tuy nhiên, do sự hiểu biết của chúng em về lĩnh vựcnày còn hạn chế, đề tài còn nhiều thiếu sót, nên chưa được hoànthiện Vì vậy chúng em rất mong được sự đóng góp nhiệt tình của cô

và các bạn để đề tài của nhóm được hoàn thiện hơn

Chúng em xin chân thành cảm ơn!

Trang 4

TÀI LIỆU THAM KHẢO

1 Nguyễn Quốc Đại, Lý Thuyết Bayes, mạng Bayes (2009)

2 Nguyễn Thanh Sơn, Lê Khánh Luận; Lý thuyết xác suất và

thống kê toán; Nxb Thống kê (2008)

3 Nguyễn Duy Tiến, Trần Minh Ngọc Đại học Khoa Học Tự

Nhiên, ĐHQGHN, Bài giảng của Viện Thống Kê Thế Giới IMS tại Malaysia

4 Azam N, Dar H A, Marwat S; Comparative study on

Feature Space Reduction for Spam Detection

5 Paul Graham, A plan for spam – 2002.

Xem tại địa chỉ: http://paulgraham.com/spam.html

6 Bayesian Spam Filtering (Wikipedia);

http://en.wikipedia.org/wiki/Bayesian_spam_filtering

7 Sequential Bayesian Filtering (Wikipedia);

http://en.wikipedia.org/wiki/Sequential_bayesian_filtering

Trang 5

tự nhiên Khoa học thống kê dựa vào lý thuyết thống kê một loại toán học ứng dụng Trong lý thuyết thống kê,tính chất ngẫu nhiên và sự không chắc chắn có thể làm

-mô hình dựa vào lý thuyết xác suất Vì mục đích của khoahọc thống kê là để tạo ra thông tin "đúng nhất" theo dữliệu có sẵn, có nhiều học giả nhìn khoa thống kê như mộtloại lý thuyết quyết định

Khoa học thống kê đóng đóng một vai trò cực kỳquan trọng, một vai trò không thể thiếu được trong bất cứcông trình nghiên cứu khoa học, nhất là các khoa họcthực nghiệm như y khoa, sinh học, nông nghiệp, hóa học,

và cả xã hội học Các thí nghiệm dựa vào các phươngpháp thống kê học có thể cung cấp cho khoa học nhữngcâu trả lời khách quan nhất cho những vấn đề khó khănnhất

Thống kê là một trong những công cụ quản lý vĩ môquan trọng, cung cấp các thông tin thống kê trung thực,khách quan, chính xác, đầy đủ, kịp thời trong việc đánhgiá, dự báo tình hình, hoạch định chiến lược, chính sách,xây dựng kế hoạch phát triển kinh tế - xã hội và đáp ứngnhu cầu thông tin thống kê của các tổ chức, cá nhân.Trong số những vai trò quan trọng thì dự báo tình hình làmột trong những vai trò mang nhiều ý nghĩa, nó có cảmột quá trình huấn luyện bên trong và có tính xử lý tựđộng khi đã được huấn luyện Hay nói khác hơn là khi đã

có tri thức lấy từ các dữ liệu thống kê hay kinh nghiệmcủa người dùng kết hợp với một phương pháp học (huấnluyện) dựa trên lý thuyết thống kê ta sẽ có được một cỗmáy có tri thức để tự nó có thể đưa ra được những quyếtđịnh với độ chính xác khá cao

Phân tích thống kê là một khâu quan trọng khôngthể thiếu được trong các công trình nghiên cứu khoa học,nhất là khoa học thực nghiệm Một công trình nghiên cứukhoa học, cho dù có tốn kém và quan trọng cỡ nào, nếukhông được phân tích đúng phương pháp sẽ không baogiờ có cơ hội được xuất hiện trong các tập san khoa học

Trang 6

khoa học trên thế giới, hầu như bất cứ bài báo y học nàocũng có phần “Statistical Analysis” (Phân tích thống kê),nơi mà tác giả phải mô tả cẩn thận phương pháp phântích, tính toán như thế nào, và giải thích ngắn gọn tại sao

sử dụng những phương pháp đó để hàm ý “bảo kê” haytăng trọng lượng khoa học cho những phát biểu trong bàibáo Các tập san y học có uy tín càng cao yêu cầu vềphân tích thống kê càng nặng Không có phần phân tíchthống kê, bài báo không thể xem là một “bài báo khoahọc” Không có phân tích thống kê, công trình nghiên cứuchưa được xem là hoàn tất

Trong khoa học thống kê, có hai trường phái “cạnhtranh” song song với nhau:

 Trường phái tần số (Frequentist school)

 Trường phái Bayes (Bayesian school)Phần lớn các phương pháp thống kê đang sử dụngngày nay được phát triển từ trường phái tần số, nhưnghiện nay, trường phái Bayes đang trên đà “chinh phục”khoa học bằng một suy nghĩ “mới” về khoa học và suyluận khoa học Phương pháp thống kê thuộc trường pháitần số thường đơn giản hơn các phương pháp thuộctrường phái Bayes

2 Ví dụ dẫn dắt

Để hiểu sự khác biệt cơ bản giữa hai trường pháinày, có lẽ cần phải nói đôi qua vài dòng về triết lý khoahọc thống kê bằng một ví dụ về nghiên cứu y khoa

Để biết hai thuật điều trị có hiệu quả giống nhauhay không, nhà nghiên cứu phải thu thập dữ liệu tronghai nhóm bệnh nhân (một nhóm được điều trị bằngphương pháp A và một nhóm được điều trị bằng phươngpháp B)

Với trường phái tần số, câu hỏi được đưa ra là: “Nếu hai thuật điều trị có hiệu quả như nhau, xác suất mà dữ liệu quan sát là bao nhiêu?”, nhưng với trường phái Bayes câu hỏi được đưa ra sẽ là: “Với dữ liệu quan sát được, xác suất mà thuật điều trị A có hiệu quả cao hơn thuật điều trị B là bao nhiêu?”.

Tuy hai cách hỏi thoạt đầu mới đọc qua thì chẳng có gìkhác nhau, nhưng suy nghĩ kỹ chúng ta sẽ thấy đó là sựkhác biệt mang tính triết lý khoa học và ý nghĩa của nórất quan trọng

Đối với người bác sĩ (hay nhà khoa học nói chung), suyluận theo trường phái Bayes là rất tự nhiên, rất hợp vớithực tế Trong y khoa lâm sàng, người bác sĩ phải sử dụng

Trang 7

kết quả xét nghiệm để phán đoán bệnh nhân mắc haykhông mắc ung thư (cũng giống như trong nghiên cứukhoa học, chúng ta phải sử dụng số liệu để suy luận vềkhả năng của một giả thiết).

Trang 8

II CƠ SỞ LÝ THUYẾT

1 Phát biểu định lý Bayes

Định lý Bayes cho phép tính xác suất xảy ra của

một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là

"xác suất của A nếu có B" Đại lượng này được gọi xác

suất có điều kiện hay xác suất hậu nghiệm vì nó được rút

ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó.

Theo định lý Bayes, xác suất xảy ra A khi biết B sẽ

phụ thuộc vào 3 yếu tố:

Xác suất xảy ra A của riêng nó, không quan tâm đến B Ký hiệu là P(A) và đọc là xác suất của A Đây được gọi là xác suất biên duyên hay xác suất tiên nghiệm, nó là "tiên nghiệm" theo nghĩa rằng nó không quan tâm đến bất kỳ thông tin nào về B.

Xác suất xảy ra B của riêng nó, không quan tâm đến A Ký hiệu là P(B) và đọc là "xác suất của B" Đại lượng này còn gọi là hằng số chuẩn hóa (normalising constant), vì nó luôn giống nhau, không phụ thuộc vào sự kiện A đang muốn biết.

Xác suất xảy ra B khi biết A xảy ra Ký hiệu là P(B| A) và đọc là "xác suất của B nếu có A" Đại lượng này gọi là khả năng (likelihood) xảy ra B khi biết A đã xảy ra Chú ý không nhầm lẫn giữa khả năng xảy ra B khi biết A và xác suất xảy ra A khi biết B.

Khi biết ba đại lượng này, xác suất của A khi biết B cho

bởi công thức :

P ( A∨B)= P (B¿) P ( A )

P (B) =

likelihood∗prior (khả năngtrước ) normalizing constant(Hằng số chuẩn hóa)

Từ đó dẫn tới:

P(A|B)P(B)=P(A∩B)=P(B|A)P(A)

2 Mô tả thuật toán

Cho đến giờ chúng ta vẫn chưa giả định đặc trưngcủa phân phối mẫu cho likelihoods Tuy nhiên, mô hìnhchuẩn tắc là một giả định hợp lý Mô hình chuẩn tắc cóliên quan đến định lý giới hạn trung tâm nổi tiếng, theođịnh lý này thì tổng của một lượng lớn các biến ngẫunhiên độc lập và phân phối đồng nhất sẽ có phân phối hội

tụ về luật chuẩn Thực tế ta có được một xấp xỉ đến luậtchuẩn tắc, thậm chí với cả một số lượng tương đối nhỏđược thêm vào các biến ngẫu nhiên Đối với các đặc

Trang 9

trưng có thể được coi là kết quả của việc bổ sung cácbiến độc lập, thường thì giả định là có thể chấp nhận.

Likelihood chuẩn tắc của lớp ωi được biểu diễn bởihàm mật độ xác suất:

p(x|ω i)= 1

2 π d /2|Σ i|1/2exp ⁡¿, (1-10)Và

μ i=Ε i[x]; mean vector for class ω i 10a)

(1-Σ i=Ε i[ (x−μ i) (x−μ i)']convariance for class ω i (1-10b)

i và ∑i là các tham số phân phối, đến giờ thì ta đã sửdụng các ước lượng mẫu mi và Ci

Cho một tập huấn luyện có n mẫu T={x1, x2, … xn}được mô tả bởi một phân phối với hàm mật độ xác suất làp(T | θ), θ là một vec tơ tham số của phân phối (chẳng), θ), θ là một vec tơ tham số của phân phối (chẳng là một vec tơ tham số của phân phối (chẳnghạn như vec tơ trung bình của phân phối chuẩn) Mộtcách đáng chú ý tính được ước lượng mẫu của vectơ thambiến là cực đại hóa hàm mật độ xác suất p(T | θ), θ là một vec tơ tham số của phân phối (chẳng), có thể

coi dây là một hàm của θ), θ là một vec tơ tham số của phân phối (chẳng gọi là likelihood of θ cho tập huấn luyện Giả sử rằng mỗi mẫu là đưa vào độc lập từ

một tập vô hạn, chúng ta có thể biểu thị likelihood nhưsau:

p(T | θ )=

i=1

n

p(x i|θ)

Khi sử dụng ước lượng hợp lý cực đại (maximum

likelihood estimation) của các biến phân phối thì nóthường dễ dàng hơn là tính cưc đại của ln[p(T|θ), θ là một vec tơ tham số của phân phối (chẳng)], điều

này là tương đương nhau Với phân phối Gauss ước lượng mẫu được cho bởi các công thức (1-10a) và (1-10b) chính

là ước lượng hợp lý cực đại và nó sẽ hội tụ về một giá trị

thực

Trang 10

Hình 7: Minh họa phân phối chuẩn trong trường hợp có

hai chiều

Như có thể nhìn thấy từ (1-10), các bề mặt của mật

độ xác suất đồng nhất với hợp lý chuẩn (normal

likelihood) thỏa mãn Mahalanobis metric:

Bây giờ chúng ta tiếp tục tính hàm quyết định chocác đặc trưng của phân phối chuẩn

lớp Bayes với rủi ro nhỏ nhất, đây là phân lớp tối ưu Chú

ý rằng công thức (1-11b) sử dụng giá trị thật của khoảngcách Mahalanobis, trong khi mà trước đó chúng ta sửdụng ước lượng của khoảng cách này

Với trường hợp covariance đồng nhất cho tất cả cáclớp (∑i=∑) và bỏ qua các hằng số ta được:

Trang 11

Hai lớp phân biệt với phân phối chuẩn, xác suất tiênnghiệm đồng nhất và covariance và vẫn còn có một côngthức rất đơn giản cho xác suất của lỗi của phân lớp:

δ2=(μ1−μ2)' Σt

(μ1−μ2) (1-13b)

bình phương của khoảng cách Bhattacharyya, mộtkhoảng cách Mahalanobis của sai phân trung bình, thểhiện tính dễ tách lớp

Hình 8 thể hiện dáng điệu của Pe với sự tăng dầncủa bình phương khảng cách Bhattacharyya Hàm nàygiảm dần theo cấp số mũ và nó hội tụ tiệm cận tới 0 Vìvậy thật khó để giảm sai số phân lớp khi giá trị này lànhỏ

Lưu ý rằng ngay cả khi các phân phối mẫu khôngphải là phân phối chuẩn, miễn là chúng đối xứng và phảituân theo Mahalanobis metric, thì chúng ta sẽ thu đượcmặt phân lớp quyết định tương tự như phân lớp chuẩn,cho dù có sự khác biệt về đánh giá sai số và xác suất hậu

nghiệm Để minh họa ta hãy xét hai lớp có xác suất tiênnghiệm đồng nhất và có ba loại phân phối đối xứng, vớicùng độ lệch tiêu chuẩn và trung bình 0 và 2.3 như hình9

Trang 12

Phân lớp tối ưu cho 3 trường hợp sử dụng cùng mộtngưỡng quyết định có giá trị 1.15, tuy nhiên các sai sốphân lớp là khác nhau:

vì khi các covariance không khác biệt nhau nhiều thì sựkhác biệt giữa các giải pháp bậc hai và tuyến tính chỉđáng kể khi các mẫu cách xa nguyên mẫu như ở hình 10

Chúng ta sẽ minh họa bằng cách sử dụng bộ dữ liệuNorm2c2d Sai số lý thuyết đối với trường hợp hai lớp, haichiều và bộ dữ liệu trên là:

δ2=[23][ 0.8 −0.8

−0.8 1.6 ][23]=8⇒ P e=1−erf(√2)=7.9 %Ước lượngsai số của bộ dữ liệu huấn luyện cho tập dữ liệu này là5% Bằng cách đưa vào sai số ±0.1 vào các giá trị của ma

trận ánh xạ A cho bộ dữ liệu, với độ lệch nằm giữa 15%

Trang 13

và 42% giá rị của covariance, ta được sai số tập huấnluyện là 6%.

Trở lại với dữ liệu các nút chai, ta có bài toán phânlớp sử dụng 2 đặc trưng N và PRT với xác suất tiênnghiệm đồng nhất Lưu ý phân lớp thống kê ngoài tínhtoán số nó không làm thay đổi các phép toán, vì thế màcác kết quả đạt được là giống nhau nếu như sử dụng PRThay PRT10

Một danh sách riêng các xác suất hậu nghiệm hữuích trong tính toán các sai số phân lớp, xem hình 11

Cho các ma trận covariances ở trong bảng 1 Độlệch của các phần tử trong ma trận covariance so với giátrị trung tâm nằm trong khoảng từ 5% đến 30% Hìnhdáng của các cụm là tương tự nhau, đây là bằng chứng

để tin rằng việc phân lớp là gần với tối ưu

Bằng cách sử dụng hàm quyết định dựa trên các matrận covariance riêng lẻ, thay vì chỉ một ma trận tổngcovariance, ta sẽ xây dựng được đường biên quyết địnhbâc hai Tuy nhiên phân lớp bằng đường bậc hai khó tính

độ lệch hơn so với phân lớp tuyến tính, đặc biệt là trongkhông gian nhiều chiều, và ta cần phải có một lượng lớn

tập dữ liệu huấn luyện (xem ví dụ của Fukunaga and Hayes, 1989).

Trang 14

III PHÂN LỚP

1 Định nghĩa

Phân lớp Nạve Bayes giả định rằng sự hiện diệnhoặc vắng mặt của một đặc tính là độc lập với sự hiệndiện và vắng mặt của các đặc tính khác, mà được quyđịnh bởi các tham số phân lớp, ví dụ: một loại trái câyđược phân lớp là trái táo nếu nĩ màu đỏ, trịn, cĩ đườngkính 3 decimet Một phân lớp Nạve Bayes xem xét cácđặc tính này tham gia một cách độc lập để xác định xácsuất mà loại trái cây này là quả táo, bất kể sự hiện diệnhay vắng mặt của các đặc tính khác

Đối với một số mơ hình xác suất, phân lớp NạveBayes cĩ thể được huân luyện một cách hiệu quả trongmơi trường học cĩ giám sát Trong nhiều ứng dụng thực

tế, ước lượng thâm số cho mơ hình Nạve Bayes sử dụngphương pháp hợp lý cực đại, nghĩa là khi sử dụng mơ hìnhNạve Bayes ta phải chấp nhận xác suất Bayes Mặc dù

sử dụng các giả định tương đối đơn giản, nhưng phân lớpNạve Bayes cĩ thể áp dụng rất tốt trong nhiều trườnghợp phức tạp trong thế giới thực

Một ưu điểm của mơ hình Nạve Bayes là chỉ cần sửdụng khối lượng nhỏ dữ liệu huấn luyện để ước lượng cáctham số cần thiết để phân lớp Bởi vì các biến độc lậpđược giả định, chỉ cĩ sự thay đổi các biến cho mỗi lớp cầnđược xác định chứ khơng phải trên tồn bộ hiệp phươngsai

2 Các mơ hình xác suất Naive Bayes

Tĩm lại, các mơ hình xác suất cho một classifier làmột mơ hình cĩ điều kiện đối với một biến lớp phụ thuộc

C với một số lượng nhỏ của các kết quả hay các lớp học,phụ thuộc vài biến đặc trưng F1 cho tới F N

Vấn đề là nếu số các đặc trưng n là lớn hay khi mộtđặc trưng cĩ thể chiếm một số lượng lớn các giá trị, sau

đĩ dựa vào một mơ hình trên các bảng xác suất là khơngthể làm được Do vậy, chúng ta cơng thức hĩa lại các mơhình để dễ xử lý:

Pr (C|F )= Pr ⁡(F∨C )Pr ⁡(C)

Pr ⁡(F )

Trong thực tế ta chỉ cần quan tâm tới tử số, vì mẫu

số khơng phụ thuộc vào C và các giá trị của đặc tính F Tử

số tương đương với mơ hình xác suất cĩ thể được viết lạinhư sau, sử dụng định nghĩa của xác suất cĩ điều kiện:

Trang 15

Bây giờ giả định "naive" giả định có điều kiện độclập đưa vào: giả định rằng mỗi đặc trưng Fi có điều kiệnđộc lập với tất cả các đặc trưng Fj cho j # i.

Điều này có nghĩa là dưới sự độc lập giả định ở trên,các điều kiện phân phối trên các lớp học biến C có thể

được thể hiện như sau:

Điều này nghĩa là theo các giả định độc lập ở trên,phân phối có điều kiện thông qua biến phân lớp C có thểđược thể hiện như sau:

Ở đây Z là một nhân tố xác định tỷ xích phụ thuộc

vào F1, F2, , Fn, chẳng hạn một hằng số nếu các giá trịcủa các biến đặc trưng đều được biết Sự phân lớp tươngứng với mô hình này là một hàm phân lớp được địnhnghĩa như sau:

3 Xây dựng một classifier từ mô hình xác suất

Các thảo luận cho đến nay đã bắt nguồn những môhình đặc trưng độc lập, có nghĩa là, mô hình xác suấtnaive Bayes Naive Bayes classifier kết hợp mô hình nàyvới một luật quyết định Là một luật chung để chọn nhiềunhất các giả thuyết có khả năng xảy ra, điều này đượcbiết đến như là maximum a posteriori hay luật quyết địnhMAP

Mặc dù rằng sự thật có thể áp dụng rộng rãi, giảđịnh độc lập thường không chính xác, các naive Bayesclassifier có vài thuộc tính làm cho nó hữu ích trong thựchành Đặc biệt thực hành, sự tách riêng của lớp có điều

Trang 16

kiện phân loại đặc trưng có nghĩa là mỗi phân loại có thểđược ước tính độc lập như là một phân phối một chiều.Toàn bộ classifier là mạnh đủ để bỏ qua các thiếu sótnghiêm trọng của nó trong những mô hình xác suấtnaive.

4 Thuật toán phân loại văn bản Naive Bayes

Định nghĩa: Là 1 phương pháp phân loại có giám

sát Dù rất dễ hiểu và dễ cài đặt, nhưng kết quả thu đượclại rất tốt Gần đây, máy phân loại này còn được ứngdụng thành công vào phần mềm lọc spam tự động

Lý thuyết về định lý Bayes và máy phân loại Bayes

đã được nhắc đến trong phần Định lý Bayes Bài viết này

sẽ nói kĩ và sâu hơn về việc ứng dụng phân loại Bayescho phân loại văn bản Cuối cùng sẽ có 1 ví dụ về ứngdụng máy phân loại Bayes trong bộ lọc spam

a Bài toán phân loại văn bản

Vector đặc trưng x biểu diễn số lần xuất hiệncác từ trong văn bản, y là các catalog (nhãn) màvăn bản thuộc về (ví dụ như thể thao, kinh tế, giảitrí, …)

Cho 1 tập dữ liệu huấn luyện đã được gánnhãn D={(x(i),y(i))} với i=1~N

Ở đây x(i) là vector đặc trưng thứ i trong tậphuấn luyện, y(i) thuộc {1,2,…,C} là các nhãn tươngứng với vector đó x(i)=( x(i)1,x(i)2,x(i)D) x(i)d là sốlần xuất hiện của từ thứ d trong từ điển (từ giờ sẽgắn số thứ tự với từ, nên sẽ gọi là từ d)

Áp dụng công thứ Bayes, ta tính giá trị củap(y|x), nếu giá trị này lớn hơn 1 giá trị t cho trước,

ta kết luận nhãn của vector x là y

Yêu cầu đặt ra là ngăn chặn spam bằng cáchphân loại một email gửi đến là spam hay non-spam.Cần đạt được hiệu quả phân loại email thật khảquan Tuy nhiên cần tuyệt đối tránh lỗi sai cho rằngemail non-spam là spam vì có thể gây hậu quảnghiêm trọng hơn là khả năng lọc spam thấp Do đóyêu cầu đối với hệ thống là phải nhận ra được emailspam càng nhiều càng tốt và giảm thiểu lỗi nhận saiemail non-spam là email spam

Ý tưởng của phương pháp là tìm cách xâydựng một bộ phân loại nhằm phân loại cho một mẫumới bằng cách huấn luyện từ những mẫu có sẵn Ởđây mỗi mẫu mà ta xét đến chính là mỗi một email,

Ngày đăng: 29/11/2018, 21:55

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w