Tài liệu bao gồm slide và Báo cáo.Môn: Hệ trợ giúp quyết địnhMỤC LỤCLỜI MỞ ĐẦUTÀI LIỆU THAM KHẢONỘI DUNGI.GIỚI THIỆU1.Tổng quan2.Ví dụ dẫn dắtII.CƠ SỞ LÝ THUYẾT1.Phát biểu định lý Bayes2.Mô tả thuật toánIII.PHÂN LỚP1.Định nghĩa2.Các mô hình xác suất Naive Bayes3.Xây dựng một classifier từ mô hình xác suất4.Thuật toán phân loại văn bản Naive BayesIV.ỨNG DỤNG1.Đặt vấn đề2.Bài toánKẾT LUẬN
Trang 1NHẬN XÉT VÀ ĐÁNH GIÁ
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
Trang 2
MỤC LỤC
LỜI MỞ ĐẦU 3
TÀI LIỆU THAM KHẢO 4
NỘI DUNG 5
I GIỚI THIỆU 5
1 Tổng quan 5
2 Ví dụ dẫn dắt 6
II CƠ SỞ LÝ THUYẾT 7
1 Phát biểu định lý Bayes 7
2 Mô tả thuật toán 7
III PHÂN LỚP 12
1 Định nghĩa 12
2 Các mô hình xác suất Naive Bayes 12
3 Xây dựng một classifier từ mô hình xác suất 13
4 Thuật toán phân loại văn bản Naive Bayes 13
IV ỨNG DỤNG 18
1 Đặt vấn đề 18
2 Bài toán 18
KẾT LUẬN 26
Trang 3LỜI MỞ ĐẦU
Trong xu thế phát triển hiện nay trên thế giới khoa học và côngnghệ luôn có những thay đổi mạnh mẽ Sự phát triển như vũ bão củaCNTT đã tác động mạnh mẽ và to lớn đến mọi mặt đời sống kinh tế
xã hội Ngày nay, CNTT đã trở thành một trong những động lực quantrọng nhất của sự phát triển Với khả năng số hoá mọi loại thông tin(số, đồ thị, văn bản, hình ảnh, tiếng nói, âm thanh.), máy tính trởthành phương tiện xử lý thông tin thống nhất và đa năng, thực hiệnđược nhiều chức năng khác nhau trên mọi dạng thông tin thuộc mọilĩnh vực: nghiên cứu, quản lý, kinh doanh,
Với vốn kiến thức được học tại trường và nhu cầu cấp thiết của xã
hội cộng thêm gợi ý của giảng viên bộ môn – cô Đoàn Thị Thanh
Hằng, nhóm em đã chọn đề tài “Thuật toán Bayes và ứng dụng”
với mong muốn giúp cho việc xây dựng, lựa chọn các quyết địnhđược thực hiện một cách dễ dàng hơn, thuận tiện và giảm thiểuđược các sai xót
Trong quá trình góp nhặt những kiến thức quý báu , nhờ sự
quan tâm hướng dẫn của cô Đoàn Thị Thanh Hằng, chúng em đã
từng bước nghiên cứu và vận dụng các kiến thức đã được học để tìmhiểu, phân tích Tuy nhiên, do sự hiểu biết của chúng em về lĩnh vựcnày còn hạn chế, đề tài còn nhiều thiếu sót, nên chưa được hoànthiện Vì vậy chúng em rất mong được sự đóng góp nhiệt tình của cô
và các bạn để đề tài của nhóm được hoàn thiện hơn
Chúng em xin chân thành cảm ơn!
Trang 4TÀI LIỆU THAM KHẢO
1 Nguyễn Quốc Đại, Lý Thuyết Bayes, mạng Bayes (2009)
2 Nguyễn Thanh Sơn, Lê Khánh Luận; Lý thuyết xác suất và
thống kê toán; Nxb Thống kê (2008)
3 Nguyễn Duy Tiến, Trần Minh Ngọc Đại học Khoa Học Tự
Nhiên, ĐHQGHN, Bài giảng của Viện Thống Kê Thế Giới IMS tại Malaysia
4 Azam N, Dar H A, Marwat S; Comparative study on
Feature Space Reduction for Spam Detection
5 Paul Graham, A plan for spam – 2002.
Xem tại địa chỉ: http://paulgraham.com/spam.html
6 Bayesian Spam Filtering (Wikipedia);
http://en.wikipedia.org/wiki/Bayesian_spam_filtering
7 Sequential Bayesian Filtering (Wikipedia);
http://en.wikipedia.org/wiki/Sequential_bayesian_filtering
Trang 5tự nhiên Khoa học thống kê dựa vào lý thuyết thống kê một loại toán học ứng dụng Trong lý thuyết thống kê,tính chất ngẫu nhiên và sự không chắc chắn có thể làm
-mô hình dựa vào lý thuyết xác suất Vì mục đích của khoahọc thống kê là để tạo ra thông tin "đúng nhất" theo dữliệu có sẵn, có nhiều học giả nhìn khoa thống kê như mộtloại lý thuyết quyết định
Khoa học thống kê đóng đóng một vai trò cực kỳquan trọng, một vai trò không thể thiếu được trong bất cứcông trình nghiên cứu khoa học, nhất là các khoa họcthực nghiệm như y khoa, sinh học, nông nghiệp, hóa học,
và cả xã hội học Các thí nghiệm dựa vào các phươngpháp thống kê học có thể cung cấp cho khoa học nhữngcâu trả lời khách quan nhất cho những vấn đề khó khănnhất
Thống kê là một trong những công cụ quản lý vĩ môquan trọng, cung cấp các thông tin thống kê trung thực,khách quan, chính xác, đầy đủ, kịp thời trong việc đánhgiá, dự báo tình hình, hoạch định chiến lược, chính sách,xây dựng kế hoạch phát triển kinh tế - xã hội và đáp ứngnhu cầu thông tin thống kê của các tổ chức, cá nhân.Trong số những vai trò quan trọng thì dự báo tình hình làmột trong những vai trò mang nhiều ý nghĩa, nó có cảmột quá trình huấn luyện bên trong và có tính xử lý tựđộng khi đã được huấn luyện Hay nói khác hơn là khi đã
có tri thức lấy từ các dữ liệu thống kê hay kinh nghiệmcủa người dùng kết hợp với một phương pháp học (huấnluyện) dựa trên lý thuyết thống kê ta sẽ có được một cỗmáy có tri thức để tự nó có thể đưa ra được những quyếtđịnh với độ chính xác khá cao
Phân tích thống kê là một khâu quan trọng khôngthể thiếu được trong các công trình nghiên cứu khoa học,nhất là khoa học thực nghiệm Một công trình nghiên cứukhoa học, cho dù có tốn kém và quan trọng cỡ nào, nếukhông được phân tích đúng phương pháp sẽ không baogiờ có cơ hội được xuất hiện trong các tập san khoa học
Trang 6khoa học trên thế giới, hầu như bất cứ bài báo y học nàocũng có phần “Statistical Analysis” (Phân tích thống kê),nơi mà tác giả phải mô tả cẩn thận phương pháp phântích, tính toán như thế nào, và giải thích ngắn gọn tại sao
sử dụng những phương pháp đó để hàm ý “bảo kê” haytăng trọng lượng khoa học cho những phát biểu trong bàibáo Các tập san y học có uy tín càng cao yêu cầu vềphân tích thống kê càng nặng Không có phần phân tíchthống kê, bài báo không thể xem là một “bài báo khoahọc” Không có phân tích thống kê, công trình nghiên cứuchưa được xem là hoàn tất
Trong khoa học thống kê, có hai trường phái “cạnhtranh” song song với nhau:
Trường phái tần số (Frequentist school)
Trường phái Bayes (Bayesian school)Phần lớn các phương pháp thống kê đang sử dụngngày nay được phát triển từ trường phái tần số, nhưnghiện nay, trường phái Bayes đang trên đà “chinh phục”khoa học bằng một suy nghĩ “mới” về khoa học và suyluận khoa học Phương pháp thống kê thuộc trường pháitần số thường đơn giản hơn các phương pháp thuộctrường phái Bayes
2 Ví dụ dẫn dắt
Để hiểu sự khác biệt cơ bản giữa hai trường pháinày, có lẽ cần phải nói đôi qua vài dòng về triết lý khoahọc thống kê bằng một ví dụ về nghiên cứu y khoa
Để biết hai thuật điều trị có hiệu quả giống nhauhay không, nhà nghiên cứu phải thu thập dữ liệu tronghai nhóm bệnh nhân (một nhóm được điều trị bằngphương pháp A và một nhóm được điều trị bằng phươngpháp B)
Với trường phái tần số, câu hỏi được đưa ra là: “Nếu hai thuật điều trị có hiệu quả như nhau, xác suất mà dữ liệu quan sát là bao nhiêu?”, nhưng với trường phái Bayes câu hỏi được đưa ra sẽ là: “Với dữ liệu quan sát được, xác suất mà thuật điều trị A có hiệu quả cao hơn thuật điều trị B là bao nhiêu?”.
Tuy hai cách hỏi thoạt đầu mới đọc qua thì chẳng có gìkhác nhau, nhưng suy nghĩ kỹ chúng ta sẽ thấy đó là sựkhác biệt mang tính triết lý khoa học và ý nghĩa của nórất quan trọng
Đối với người bác sĩ (hay nhà khoa học nói chung), suyluận theo trường phái Bayes là rất tự nhiên, rất hợp vớithực tế Trong y khoa lâm sàng, người bác sĩ phải sử dụng
Trang 7kết quả xét nghiệm để phán đoán bệnh nhân mắc haykhông mắc ung thư (cũng giống như trong nghiên cứukhoa học, chúng ta phải sử dụng số liệu để suy luận vềkhả năng của một giả thiết).
Trang 8II CƠ SỞ LÝ THUYẾT
1 Phát biểu định lý Bayes
Định lý Bayes cho phép tính xác suất xảy ra của
một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là
"xác suất của A nếu có B" Đại lượng này được gọi xác
suất có điều kiện hay xác suất hậu nghiệm vì nó được rút
ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó.
Theo định lý Bayes, xác suất xảy ra A khi biết B sẽ
phụ thuộc vào 3 yếu tố:
Xác suất xảy ra A của riêng nó, không quan tâm đến B Ký hiệu là P(A) và đọc là xác suất của A Đây được gọi là xác suất biên duyên hay xác suất tiên nghiệm, nó là "tiên nghiệm" theo nghĩa rằng nó không quan tâm đến bất kỳ thông tin nào về B.
Xác suất xảy ra B của riêng nó, không quan tâm đến A Ký hiệu là P(B) và đọc là "xác suất của B" Đại lượng này còn gọi là hằng số chuẩn hóa (normalising constant), vì nó luôn giống nhau, không phụ thuộc vào sự kiện A đang muốn biết.
Xác suất xảy ra B khi biết A xảy ra Ký hiệu là P(B| A) và đọc là "xác suất của B nếu có A" Đại lượng này gọi là khả năng (likelihood) xảy ra B khi biết A đã xảy ra Chú ý không nhầm lẫn giữa khả năng xảy ra B khi biết A và xác suất xảy ra A khi biết B.
Khi biết ba đại lượng này, xác suất của A khi biết B cho
bởi công thức :
P ( A∨B)= P (B¿) P ( A )
P (B) =
likelihood∗prior (khả năngtrước ) normalizing constant(Hằng số chuẩn hóa)
Từ đó dẫn tới:
P(A|B)P(B)=P(A∩B)=P(B|A)P(A)
2 Mô tả thuật toán
Cho đến giờ chúng ta vẫn chưa giả định đặc trưngcủa phân phối mẫu cho likelihoods Tuy nhiên, mô hìnhchuẩn tắc là một giả định hợp lý Mô hình chuẩn tắc cóliên quan đến định lý giới hạn trung tâm nổi tiếng, theođịnh lý này thì tổng của một lượng lớn các biến ngẫunhiên độc lập và phân phối đồng nhất sẽ có phân phối hội
tụ về luật chuẩn Thực tế ta có được một xấp xỉ đến luậtchuẩn tắc, thậm chí với cả một số lượng tương đối nhỏđược thêm vào các biến ngẫu nhiên Đối với các đặc
Trang 9trưng có thể được coi là kết quả của việc bổ sung cácbiến độc lập, thường thì giả định là có thể chấp nhận.
Likelihood chuẩn tắc của lớp ωi được biểu diễn bởihàm mật độ xác suất:
p(x|ω i)= 1
2 π d /2|Σ i|1/2exp ¿, (1-10)Và
μ i=Ε i[x]; mean vector for class ω i 10a)
(1-Σ i=Ε i[ (x−μ i) (x−μ i)']convariance for class ω i (1-10b)
i và ∑i là các tham số phân phối, đến giờ thì ta đã sửdụng các ước lượng mẫu mi và Ci
Cho một tập huấn luyện có n mẫu T={x1, x2, … xn}được mô tả bởi một phân phối với hàm mật độ xác suất làp(T | θ), θ là một vec tơ tham số của phân phối (chẳng), θ), θ là một vec tơ tham số của phân phối (chẳng là một vec tơ tham số của phân phối (chẳnghạn như vec tơ trung bình của phân phối chuẩn) Mộtcách đáng chú ý tính được ước lượng mẫu của vectơ thambiến là cực đại hóa hàm mật độ xác suất p(T | θ), θ là một vec tơ tham số của phân phối (chẳng), có thể
coi dây là một hàm của θ), θ là một vec tơ tham số của phân phối (chẳng gọi là likelihood of θ cho tập huấn luyện Giả sử rằng mỗi mẫu là đưa vào độc lập từ
một tập vô hạn, chúng ta có thể biểu thị likelihood nhưsau:
p(T | θ )=∏
i=1
n
p(x i|θ)
Khi sử dụng ước lượng hợp lý cực đại (maximum
likelihood estimation) của các biến phân phối thì nóthường dễ dàng hơn là tính cưc đại của ln[p(T|θ), θ là một vec tơ tham số của phân phối (chẳng)], điều
này là tương đương nhau Với phân phối Gauss ước lượng mẫu được cho bởi các công thức (1-10a) và (1-10b) chính
là ước lượng hợp lý cực đại và nó sẽ hội tụ về một giá trị
thực
Trang 10Hình 7: Minh họa phân phối chuẩn trong trường hợp có
hai chiều
Như có thể nhìn thấy từ (1-10), các bề mặt của mật
độ xác suất đồng nhất với hợp lý chuẩn (normal
likelihood) thỏa mãn Mahalanobis metric:
Bây giờ chúng ta tiếp tục tính hàm quyết định chocác đặc trưng của phân phối chuẩn
lớp Bayes với rủi ro nhỏ nhất, đây là phân lớp tối ưu Chú
ý rằng công thức (1-11b) sử dụng giá trị thật của khoảngcách Mahalanobis, trong khi mà trước đó chúng ta sửdụng ước lượng của khoảng cách này
Với trường hợp covariance đồng nhất cho tất cả cáclớp (∑i=∑) và bỏ qua các hằng số ta được:
Trang 11Hai lớp phân biệt với phân phối chuẩn, xác suất tiênnghiệm đồng nhất và covariance và vẫn còn có một côngthức rất đơn giản cho xác suất của lỗi của phân lớp:
δ2=(μ1−μ2)' Σ−t
(μ1−μ2) (1-13b)
bình phương của khoảng cách Bhattacharyya, mộtkhoảng cách Mahalanobis của sai phân trung bình, thểhiện tính dễ tách lớp
Hình 8 thể hiện dáng điệu của Pe với sự tăng dầncủa bình phương khảng cách Bhattacharyya Hàm nàygiảm dần theo cấp số mũ và nó hội tụ tiệm cận tới 0 Vìvậy thật khó để giảm sai số phân lớp khi giá trị này lànhỏ
Lưu ý rằng ngay cả khi các phân phối mẫu khôngphải là phân phối chuẩn, miễn là chúng đối xứng và phảituân theo Mahalanobis metric, thì chúng ta sẽ thu đượcmặt phân lớp quyết định tương tự như phân lớp chuẩn,cho dù có sự khác biệt về đánh giá sai số và xác suất hậu
nghiệm Để minh họa ta hãy xét hai lớp có xác suất tiênnghiệm đồng nhất và có ba loại phân phối đối xứng, vớicùng độ lệch tiêu chuẩn và trung bình 0 và 2.3 như hình9
Trang 12Phân lớp tối ưu cho 3 trường hợp sử dụng cùng mộtngưỡng quyết định có giá trị 1.15, tuy nhiên các sai sốphân lớp là khác nhau:
vì khi các covariance không khác biệt nhau nhiều thì sựkhác biệt giữa các giải pháp bậc hai và tuyến tính chỉđáng kể khi các mẫu cách xa nguyên mẫu như ở hình 10
Chúng ta sẽ minh họa bằng cách sử dụng bộ dữ liệuNorm2c2d Sai số lý thuyết đối với trường hợp hai lớp, haichiều và bộ dữ liệu trên là:
δ2=[23][ 0.8 −0.8
−0.8 1.6 ][23]=8⇒ P e=1−erf(√2)=7.9 %Ước lượngsai số của bộ dữ liệu huấn luyện cho tập dữ liệu này là5% Bằng cách đưa vào sai số ±0.1 vào các giá trị của ma
trận ánh xạ A cho bộ dữ liệu, với độ lệch nằm giữa 15%
Trang 13và 42% giá rị của covariance, ta được sai số tập huấnluyện là 6%.
Trở lại với dữ liệu các nút chai, ta có bài toán phânlớp sử dụng 2 đặc trưng N và PRT với xác suất tiênnghiệm đồng nhất Lưu ý phân lớp thống kê ngoài tínhtoán số nó không làm thay đổi các phép toán, vì thế màcác kết quả đạt được là giống nhau nếu như sử dụng PRThay PRT10
Một danh sách riêng các xác suất hậu nghiệm hữuích trong tính toán các sai số phân lớp, xem hình 11
Cho các ma trận covariances ở trong bảng 1 Độlệch của các phần tử trong ma trận covariance so với giátrị trung tâm nằm trong khoảng từ 5% đến 30% Hìnhdáng của các cụm là tương tự nhau, đây là bằng chứng
để tin rằng việc phân lớp là gần với tối ưu
Bằng cách sử dụng hàm quyết định dựa trên các matrận covariance riêng lẻ, thay vì chỉ một ma trận tổngcovariance, ta sẽ xây dựng được đường biên quyết địnhbâc hai Tuy nhiên phân lớp bằng đường bậc hai khó tính
độ lệch hơn so với phân lớp tuyến tính, đặc biệt là trongkhông gian nhiều chiều, và ta cần phải có một lượng lớn
tập dữ liệu huấn luyện (xem ví dụ của Fukunaga and Hayes, 1989).
Trang 14III PHÂN LỚP
1 Định nghĩa
Phân lớp Nạve Bayes giả định rằng sự hiện diệnhoặc vắng mặt của một đặc tính là độc lập với sự hiệndiện và vắng mặt của các đặc tính khác, mà được quyđịnh bởi các tham số phân lớp, ví dụ: một loại trái câyđược phân lớp là trái táo nếu nĩ màu đỏ, trịn, cĩ đườngkính 3 decimet Một phân lớp Nạve Bayes xem xét cácđặc tính này tham gia một cách độc lập để xác định xácsuất mà loại trái cây này là quả táo, bất kể sự hiện diệnhay vắng mặt của các đặc tính khác
Đối với một số mơ hình xác suất, phân lớp NạveBayes cĩ thể được huân luyện một cách hiệu quả trongmơi trường học cĩ giám sát Trong nhiều ứng dụng thực
tế, ước lượng thâm số cho mơ hình Nạve Bayes sử dụngphương pháp hợp lý cực đại, nghĩa là khi sử dụng mơ hìnhNạve Bayes ta phải chấp nhận xác suất Bayes Mặc dù
sử dụng các giả định tương đối đơn giản, nhưng phân lớpNạve Bayes cĩ thể áp dụng rất tốt trong nhiều trườnghợp phức tạp trong thế giới thực
Một ưu điểm của mơ hình Nạve Bayes là chỉ cần sửdụng khối lượng nhỏ dữ liệu huấn luyện để ước lượng cáctham số cần thiết để phân lớp Bởi vì các biến độc lậpđược giả định, chỉ cĩ sự thay đổi các biến cho mỗi lớp cầnđược xác định chứ khơng phải trên tồn bộ hiệp phươngsai
2 Các mơ hình xác suất Naive Bayes
Tĩm lại, các mơ hình xác suất cho một classifier làmột mơ hình cĩ điều kiện đối với một biến lớp phụ thuộc
C với một số lượng nhỏ của các kết quả hay các lớp học,phụ thuộc vài biến đặc trưng F1 cho tới F N
Vấn đề là nếu số các đặc trưng n là lớn hay khi mộtđặc trưng cĩ thể chiếm một số lượng lớn các giá trị, sau
đĩ dựa vào một mơ hình trên các bảng xác suất là khơngthể làm được Do vậy, chúng ta cơng thức hĩa lại các mơhình để dễ xử lý:
Pr (C|F )= Pr (F∨C )Pr (C)
Pr (F )
Trong thực tế ta chỉ cần quan tâm tới tử số, vì mẫu
số khơng phụ thuộc vào C và các giá trị của đặc tính F Tử
số tương đương với mơ hình xác suất cĩ thể được viết lạinhư sau, sử dụng định nghĩa của xác suất cĩ điều kiện:
Trang 15Bây giờ giả định "naive" giả định có điều kiện độclập đưa vào: giả định rằng mỗi đặc trưng Fi có điều kiệnđộc lập với tất cả các đặc trưng Fj cho j # i.
Điều này có nghĩa là dưới sự độc lập giả định ở trên,các điều kiện phân phối trên các lớp học biến C có thể
được thể hiện như sau:
Điều này nghĩa là theo các giả định độc lập ở trên,phân phối có điều kiện thông qua biến phân lớp C có thểđược thể hiện như sau:
Ở đây Z là một nhân tố xác định tỷ xích phụ thuộc
vào F1, F2, , Fn, chẳng hạn một hằng số nếu các giá trịcủa các biến đặc trưng đều được biết Sự phân lớp tươngứng với mô hình này là một hàm phân lớp được địnhnghĩa như sau:
3 Xây dựng một classifier từ mô hình xác suất
Các thảo luận cho đến nay đã bắt nguồn những môhình đặc trưng độc lập, có nghĩa là, mô hình xác suấtnaive Bayes Naive Bayes classifier kết hợp mô hình nàyvới một luật quyết định Là một luật chung để chọn nhiềunhất các giả thuyết có khả năng xảy ra, điều này đượcbiết đến như là maximum a posteriori hay luật quyết địnhMAP
Mặc dù rằng sự thật có thể áp dụng rộng rãi, giảđịnh độc lập thường không chính xác, các naive Bayesclassifier có vài thuộc tính làm cho nó hữu ích trong thựchành Đặc biệt thực hành, sự tách riêng của lớp có điều
Trang 16kiện phân loại đặc trưng có nghĩa là mỗi phân loại có thểđược ước tính độc lập như là một phân phối một chiều.Toàn bộ classifier là mạnh đủ để bỏ qua các thiếu sótnghiêm trọng của nó trong những mô hình xác suấtnaive.
4 Thuật toán phân loại văn bản Naive Bayes
Định nghĩa: Là 1 phương pháp phân loại có giám
sát Dù rất dễ hiểu và dễ cài đặt, nhưng kết quả thu đượclại rất tốt Gần đây, máy phân loại này còn được ứngdụng thành công vào phần mềm lọc spam tự động
Lý thuyết về định lý Bayes và máy phân loại Bayes
đã được nhắc đến trong phần Định lý Bayes Bài viết này
sẽ nói kĩ và sâu hơn về việc ứng dụng phân loại Bayescho phân loại văn bản Cuối cùng sẽ có 1 ví dụ về ứngdụng máy phân loại Bayes trong bộ lọc spam
a Bài toán phân loại văn bản
Vector đặc trưng x biểu diễn số lần xuất hiệncác từ trong văn bản, y là các catalog (nhãn) màvăn bản thuộc về (ví dụ như thể thao, kinh tế, giảitrí, …)
Cho 1 tập dữ liệu huấn luyện đã được gánnhãn D={(x(i),y(i))} với i=1~N
Ở đây x(i) là vector đặc trưng thứ i trong tậphuấn luyện, y(i) thuộc {1,2,…,C} là các nhãn tươngứng với vector đó x(i)=( x(i)1,x(i)2,x(i)D) x(i)d là sốlần xuất hiện của từ thứ d trong từ điển (từ giờ sẽgắn số thứ tự với từ, nên sẽ gọi là từ d)
Áp dụng công thứ Bayes, ta tính giá trị củap(y|x), nếu giá trị này lớn hơn 1 giá trị t cho trước,
ta kết luận nhãn của vector x là y
Yêu cầu đặt ra là ngăn chặn spam bằng cáchphân loại một email gửi đến là spam hay non-spam.Cần đạt được hiệu quả phân loại email thật khảquan Tuy nhiên cần tuyệt đối tránh lỗi sai cho rằngemail non-spam là spam vì có thể gây hậu quảnghiêm trọng hơn là khả năng lọc spam thấp Do đóyêu cầu đối với hệ thống là phải nhận ra được emailspam càng nhiều càng tốt và giảm thiểu lỗi nhận saiemail non-spam là email spam
Ý tưởng của phương pháp là tìm cách xâydựng một bộ phân loại nhằm phân loại cho một mẫumới bằng cách huấn luyện từ những mẫu có sẵn Ởđây mỗi mẫu mà ta xét đến chính là mỗi một email,