1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giới thiệu thuật toán bayes

33 231 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 2,3 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Giới thiệu thuật toán Bayes

Trang 2

Mục lục

MỤC LỤC……… ……….2

PHẦN MỞ ĐẦU ………3

CHƯƠNG I: CƠ SỞ LÝ THUYẾT… ……….4

I.1 HỆ TRỢ GIÚP QUYẾT ĐỊNH……… ……….4

I.2 ĐỊNH LÝ BAYES…… ……… 4

I.2.1 CỰC TIỂU HĨA RỦI RO TRONG BÀI TỐN PHÂN LỚP BAYES……… 5

I.2.2 PHÂN LỚP BAYES CHUẨN TẮC……… … 12

I.2.3 MIỀN QUYẾT ĐỊNH……… 18

II THUẬT TỐN BAYES……….……… 21

II.1 ĐỊNH NGHĨA………21

II.2 THUẬT TỐN NAVIE BAYES HOẠT ĐỘNG NHƯ THẾ NÀO 21

II.3 THUẬT TỐN NẠVE BAYES ĐƯỢC SỬ DỤNG ĐỂ LÀM GÌ 23

II.4 ƯU, NHƯỢC ĐIỂM THUẬT TỐN……… 24

II.5 CÁCH XÂY DỰNG MƠ HÌNH CƠ BẢN BẰNG THUẬT TỐN NAICE BAYES……… 24

III ỨNG DỤNG THUẬT TỐN BAYES……… 26

III.1 ĐẶT VẤN ĐỀ.……….…….26

III.2 BÀI TỐN………27

III.3 TIỀN XỬ LÝ MỖI LÁ THƯ ĐIỆN TỬ………27

III.4 DÙNG LUẬT BAYES TÍNH XÁC SUẤT………28

III.5 HUẤN LUYỆN BỘ LỌC BAYES……… 29

III.6 LỌC THƯ……….30

KẾT LUẬN………32

THAM KHẢO……… 33

Trang 3

cùng với đó là sự phát triển trong tính logic của khoa học máy tính, các dữliệu trong hệ thống thông tin tạo thành hệ trợ giúp quyết định giúp con ngườitrong việc ra quyết định một cách một cách chính xác nhất Cùng với đó lànhững thuật toán góp phần xây dựng nên hệ trợ giúp quyết định trong đó cóthuật toán Bayes.

2 Mục đích chọn đề tài

Tìm hiểu thuật toán Bayes và ứng dụng

Trang 4

* Lợi ích:

- Khả năng hỗ trợ quyết định các vấn đề phức tạp

- Trả lời nhanh cho các tình huống không định trước

- Có khả năng thử các chiến lược khác nhau

- Người sử dụng có thêm những hiểu biết mới

- Liên lạc thuận tiện

- Hệ TGQĐ tăng khả năng điều hành, giảm các quyết định sai lầm

- Cải tiến việc quản lý, Năng suất phân tích được cải thiện

Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:

- Xác suất xảy ra A của riêng nó, không quan tâm đến B Kí hiệu làP(A) và đọc là xác suất của A Đây được gọi là xác suất biên duyênhay xác suất tiên nghiệm, nó là "tiên nghiệm" theo nghĩa rằng nókhông quan tâm đến bất kỳ thông tin nào về B

- Xác suất xảy ra B của riêng nó, không quan tâm đến A Kí hiệu làP(B) và đọc là "xác suất của B" Đại lượng này còn gọi là hằng sốchuẩn hóa (normalising constant), vì nó luôn giống nhau, không phụthuộc vào sự kiện A đang muốn biết

Trang 5

Khi biết ba đại lượng này, xác suất của A khi biết B cho bởi công thức:

Từ đó dẫn tới

2.1 Cực tiểu hóa rủi ro trong bài toán phân lớp Bayes

Bây giờ xem xét bài toán nút chai, hãy hình dung rằng nhà máy sản xuất

được 2 loại là: w1 = Super và w2 = Average

Giả sử thêm rằng nhà máy có một hồ sơ của các kho chứa sản phẩm để lưugiữ, tóm lược lại như sau:

- Số nút chai của lớp w1: n1 = 901 420

- Số nút chai của lớp w2: n2 = 1 352 130

- Tổng số nút chai: n = 2 253 550

Theo đó ta dễ dàng tính được xác suất để một nút chai thuộc lớp nào trong

2 lớp, đây gọi là xác suất tiên nghiệm hay là prevalences:

P(w1) = n1/n = 0.4 P(w2) = n2/n = 0.6 (1-1)

Để ý rằng xác suất tiên nghiệm trên không phải hoàn toàn phụ thuộc vàonhà máy sản xuất mà nó chủ yếu vào chất lượng của nguyên liệu Tương tựmột bác sĩ chuyên khoa tim không thể nào kiểm soát xác suất bệnh nhồi máu

cơ tim của một nhóm dân cư Prevalences có thể làm điều đó bởi vì nó liênquan đến trạng thái tự nhiên

Giả sử bài toán yêu cầu thực hiện một quyết định không rõ ràng, chẳng hạnchọn lớp cho cái nút chai bất kỳ mà không biết gì về nút chai đó Nếu chỉ cóthông tin là xác suất tiên nghiệm thì ta sẽ chọn lớp w2 Với cách này chúng tamong rằng nó chỉ sai 40% số lần

Trang 6

Giả sử rằng chúng ta có thể đo được vecto đặc trưng của nút chai, p(wi |x)

là xác suất có điều kiện mô tả xác suất để đối tượng x thuộc lớp wi Nếuchúng ta có thể xác định xác suất p(w1|x) và p(w2|x) dễ thấy rằng:

- Nếu P(w1| x) > P(w2|x) ta phân x vào w1;

- Nếu P(w1| x) < P(w2|x) ta phân x vào w2;

- Nếu P(w1| x) = P(w2| x) chọn tùy ý

Tóm lại:

if P(w1|x) > P(w2|x) then x ∈ w1 else x ∈ w2 (1-2a)

Xác suất hậu nghiệm P(wi |x) có thể tính được nếu chúng ta biết pdfs (cáchàm mật độ xác suất) của các phân phối vec tơ đặc trưng của 2 lớp Sau đó tatính các xác suất p(x|wi) , là xác suất để đối tượng thuộc lớp wi có đặc trưng

là x gọi là likelihood of x tạm dịch là khả năng xảy ra x hay là hợp lý của x.Thực tế ta dùng công thức Bayes:

Với

Lưu ý rằng P(wi) và P(wi |x) là các xác suất rời rạc, trái lại p(x|wi) và p(x)

là các giá trị của hàm mật độ xác suất Để ý rằng khi so sánh (1-2a) ta có giátrị chung là p(x) do đó ta viết lại:

if p(x|w1) P(w1) > p(x|w2)P(w2) then x ∈ w1 else x ∈ w2 (1-4)

Hay là:

then x ∈ w1 else x ∈ w2 (1-4a)

Trang 7

Giả sử rằng mỗi nút chai chỉ có một đặc trưng là N, tức là vec tơ đặc trưng

- Xác suất tiên nghiệm của w1 lớn hơn của w2 Ngưỡng quyết định thay thế

Trang 8

Chúng ta thấy rằng thật sự độ lệch ngưỡng quyết định đã dẫn đến lớp w2tốt hơn lớp w1 Điều này nghe có vẻ hợp lý kể từ khi mà bây giờ lớp w2 xuấthiện thường xuyên hơn Khi độ sai toàn phần tăng lên điều kỳ lạ là sự ảnhhưởng của xác suất tiên nghiệm là có lợi Câu trả lời cho câu hỏi này là liênquan đến chủ đề phân lớp mạo hiểm, mà sẽ được trình bày ngay bây giờ Chúng ta giả định rằng giá của một nút chai (cork stopper) thuộc lớp w1 là0.025£, lớp w2 là 0.015£ Giả sử là các nút chai lớp w1 được dùng cho cácchai đặc biệt, còn các nút chai lớp w2 thì dùng cho các chai bình thường Nếu

ta phân lớp sai một nút chai lớp w1 thì sẽ bị mất 0.025-0.015=0.01£

Nếu phân lớp sai một nút chai lớp w2 thì dẫn đến nó sẽ bị loại bỏ và sẽ bịmất 0.015£ Ta ký hiệu:

- SB - Hành động của việc sử dụng một nút chai(cork stopper) để phâncho loại chai đặc biệt

- NB - Hành động của việc sử dụng một nút chai(cork stopper) để phâncho loại chai bình thường

- w1 = S (siêu lớp); w2 = A (lớp trung bình)

Trang 9

R(α1 | x) = 0.015 P(A | x)

Tương tự cho trường hợp nếu phân cho những chai thông thường:

R(α2 | x) = R(NB | x) = λ(NB | S)P(S | x) + λ(NB | A)P(A | x) (1-6b)

R(α2 | x) = 0.01P(S | x)

Trang 10

Chúng ta giả định rằng đánh giá rủi ro chỉ chịu ảnh hưởng từ quyết địnhsai Do vậy một quyết định chính xác sẽ không gây ra thiệt hại λii=0, nhưtrong (1-6)

Nếu thay vì 2 lớp chúng ta có c lớp thì sự mất mát ứng với một hành động

αi sẽ là:

(1-6c)

Chúng ta quan tâm đến việc giảm thiểu mức rủi ro trung bình tính cho mộtlượng lớn nút chai bất kỳ Công thức Bayes cho rủi ro nhỏ nhất làm được điềunày bằng cách cực tiểu hóa các rủi ro có điều kiện R(αi | x)

Giả sử ban đầu rằng các quyết định sai lầm có cùng một mất mát, chúng có

tỉ lệ với một đơn vị mất mát:

(1-7a) Trong trường hợp này từ tất cả các xác suất hậu nghiệm đều tăng lên một,chúng ta cần phải cực tiểu hóa:

Hàm quyết định cho lớp wi là:

gi(x) = P(wi | x) (4-18d)

Bây giờ hãy xem xét các tình huống khác nhau của các thiệt hại xảy ra chonhững quyết định sai lầm, để cho đơn giản giả sử c = 2 Dựa vào các biểuthức (1-6a) và (1-6b) thật dễ nhận thấy rằng một nút chai sẽ thuộc lớp w1 nếu:

Trang 11

(1-8)

Vì thế ngưỡng quyết định so với tỷ số hợp lý(likelihood) thì nó nghiêng về

sự mất mát Ta có thể cài đặt luật quyết định Bayes như hình 5

Tương tự chúng ta có thể điều chỉnh xác suất tiên nghiệm như sau:

Với sự mất mát λ12 = 0.015 và λ21 = 0.01, sử dụng xác suất tiên nghiệm ởtrên ta được P * (w1) = 0.308 và P * (w2) = 0.692 Sự thiệt hại sẽ là lớn hơnnếu như phân lớp sai lớp w2 do đó cần tăng P * (w2) lên so với P * (w1) Kếtquả của việc điều chỉnh là giảm số lượng các phần tử thuộc lớp w2 bị phânlớp sai thành w1 Xem kết quả phân lớp ở hình ở hình 6

Trang 12

Ta có thể tính giá trị rủi ro trung bình trường hợp có 2 lớp:

R2 và R2 là miền quyết định của lớpω 1 và lớpω2 , còn Peij là xác suất sai

số của sự quyết định lớp là ω i khi mà lớp đúng là ω j Chúng ta hãy sử dụngtập dữ liệu huấn luyện để đánh giá những sai số này, Pe12=0.1 và Pe21=0.46(xem hình 6) Rủi ro trung bình đối với mỗi nút chai bây giờ là: R =0.015Pe12 + 0.01Pe21 = 0.0061Є Với Ω là tập các lớp ta có công thức (1-9)tổng quát:

Luật quyết định Bayes không phải là lựa chọn duy nhất trong thống kêphân lớp Cũng lưu ý rằng, trong thực tế một trong những cố gắng để giảmthiểu rủi ro trung bình là sử dụng ước lượng của hàm mật độ xác suất tínhđược từ một tập dữ liệu huấn luyện, như chúng ta đã làm ở trên cho corkStoppers Nếu chúng ta có những căn cứ để tin rằng các hàm phân phối xácsuất thỏa mãn tham số mẫu, thì ta thay thế việc tính các tham biến thích hợp

từ tập huấn luyện Hoặc là chúng ta cũng có thể sử dụng phương pháp cựctiểu hóa rủi ro theo kinh nghiệm (empirical risk minimization (ERM)),nguyên tắc là cực tiểu hóa rủi ro theo kinh nghiệm thay vì rủi ro thực tế

2.2 Phân lớp Bayes chuẩn tắc

Cho đến giờ chúng ta vẫn chưa giả định đặc trưng của phân phối mẫu cho likelihoods Tuy nhiên, mô hình chuẩn tắc là một giả định hợp lý Mô hình chuẩn tắc có liên quan đến định lý giới hạn trung tâm nổi tiếng, theo định lý này thì tổng của một lượng lớn các biến ngẫu nhiên độc lập và phân phối đồng nhất sẽ có phân phối hội tụ về luật chuẩn Thực tế ta có được một xấp xỉ đến luật chuẩn tắc, thậm chí với cả một số lượng tương đối nhỏ được thêm vào các biến ngẫu nhiên Đối với các đặc trưng có thể được coi là kết quả của việc bổ sung các biến độc lập, thường thì giả định là có thể chấp nhận.

Trang 13

µi và ∑i là các tham số phân phối, đến giờ thì ta đã sử dụng các ước lượng mẫu mi và

Ci.

Hình 7 minh họa phân phối chuẩn trong trường hợp có hai chiều.

phối (chẳng hạn như vec tơ trung bình của phân phối chuẩn) Một cách đáng chú

ý tính được ước lượng mẫu của vectơ tham biến là cực đại hóa hàm mật độ xác

luyện Giả sử rằng mỗi mẫu là đưa vào độc lập từ một tập vô hạn, chúng ta có thể

biểu thị likelihood như sau:

n

p (T | ө ) = ∑ p ( xi | ө )

i1

Khi sử dụng ước lượng hợp lý cực đại (maximum likelihood estimation) của các

là tương đương nhau Với phân phối Gauss ước lượng mẫu được cho bởi các công thức (1-10a) và (1-10b) chính là ước lượng hợp lý cực đại và nó sẽ hội tụ về một giá

trị thực.

Trang 14

Như có thể nhìn thấy từ (1-10), các bề mặt của mật độ xác suất đồng nhất với

hợp lý chuẩn (normal likelihood) thỏa mãn Mahalanobis metric:

Bây giờ chúng ta tiếp tục tính hàm quyết định cho các đặc trưng của phân phối chuẩn:

gi(x) = P(ωi | x) = P(ωi) p(x | ωi) (1-11)

biến đổi logarit ta được:

Bằng cách sử dụng những hàm quyết định, rõ ràng phụ thuộc Mahalanobis

metric, ta có thể xây dựng phân lớp Bayes với rủi ro nhỏ nhất, đây là phân lớp tối

ưu Chú ý rằng công thức (1-11b) sử dụng giá trị thật của khoảng cách

Mahalanobis, trong khi mà trước đó chúng ta sử dụng ước lượng của khoảng cách này.

hằng số ta được:

Trang 15

Qua đó ta có được hàm quyết định tuyến tính

Hai lớp phân biệt với phân phối chuẩn, xác suất tiên nghiệm đồng nhất và covariance và vẫn còn có một công thức rất đơn giản cho xác suất của lỗi của phân lớp:

bình phương của khoảng cách Bhattacharyya, một khoảng cách Mahalanobis của sai phân trung bình, thể hiện tính dễ tách lớp.

Trang 16

Hình 8 thể hiện dáng điệu của Pe với sự tăng dần của bình phương khảng cách Bhattacharyya Hàm này giảm dần theo cấp số mũ và nó hội tụ tiệm cận tới 0 Vì vậy thật khó để giảm sai số phân lớp khi giá trị này là nhỏ.

Lưu ý rằng ngay cả khi các phân phối mẫu không phải là phân phối chuẩn, miễn là chúng đối xứng và phải tuân theo Mahalanobis metric, thì chúng ta sẽ thu được mặt phân lớp quyết định tương tự như phân lớp chuẩn, cho dù có sự khác biệt về đánh giá sai số và xác suất hậu nghiệm Để minh họa ta hãy xét hai lớp có xác suất tiên nghiệm đồng nhất và có ba loại phân phối đối xứng, với cùng độ lệch tiêu chuẩn và trung bình 0 và 2.3 như hình 9.

Phân lớp tối ưu cho 3 trường hợp sử dụng cùng một ngưỡng quyết định có giá trị 1.15, tuy nhiên các sai số phân lớp là khác nhau:

Logistic: Pe = 24.0

hạn, thì sự phân lớp có thể thực hiện một cách tương tự với phương pháp tối

Trang 17

Chúng ta sẽ minh họa bằng cách sử dụng bộ dữ liệu Norm2c2d Sai số

lý thuyết đối với trường hợp hai lớp, hai chiều và bộ dữ liệu trên là:

Ước lượng sai số của bộ dữ liệu huấn luyện cho tập dữ liệu này

là 5% Bằng cách đưa vào sai số ±0.1 vào các giá trị của ma trận

ánh xạ A cho bộ dữ liệu, với độ lệch nằm giữa 15% và 42% giá rị

của covariance, ta được sai số tập huấn luyện là 6%

Trở lại với dữ liệu các nút chai, ta có bài toán phân lớp sử dụng 2 đặc

Trang 18

mà các kết quả đạt được là giống nhau nếu như sử dụng PRT hay

PRT10.

Một danh sách riêng các xác suất hậu nghiệm hữu ích trong tính toán các sai số phân lớp, xem hình 11.

Cho các ma trận covariances ở trong bảng 1 Độ lệch của các phần tử

trong ma trận covariance so với giá trị trung tâm nằm trong khoảng từ

5% đến 30% Hình dáng của các cụm là tương tự nhau, đây là bằng

chứng để tin rằng việc phân lớp là gần với tối ưu.

Bằng cách sử dụng hàm quyết định dựa trên các ma trận covarianceriêng lẻ, thay vì chỉ một ma trận tổng covariance, ta sẽ xây dựng đượcđường biên quyết định bâc hai Tuy nhiên phân lớp bằng đường bậc hai khótính độ lệch hơn so với phân lớp tuyến tính, đặc biệt là trong không giannhiều chiều, và ta cần phải có một lượng lớn tập dữ liệu huấn luyện

2.3 Miền quyết định

Trong thực tế của các ứng dụng nhân dạng mẫu, đơn giản ta chỉ cần sử

dụng một luật quyết định như các công thức (1-2a) và (1-7c) khi đó sẽ tạo ranhiều biên quyết định, và rất dễ xuất hiện nhiễu ở trong dữ liệu, ảnh hưởngđến độ chính xác của các tính toán phân lớp Nhiễu mẫu nằm gần biên quyếtđịnh có thể thay đổi lớp được gán chỉ với một điều chỉnh nhỏ Nghĩa là thực

tế, phần lớn các mẫu mang đặc điểm của cả 2 lớp Đối với các mẫu như vậy,thích hợp cho vệc đặt chúng trong một lớp đặc biệt để có thể xem xét kỹ hơn.Điều này chắc chắn phải trong một số ứng dụng, ví dụ như, trong lĩnh vực y

tế, nơi ranh giới giữa bình thường và khác thường là cần phải phân tích thêm.Một cách giải quyết là gắn một sự định tính(qualifications) trong việc tínhtoán xác suất hậu nghiệm P(ωi|x) cho lớp ωi Chẳng hạn chúng ta gắn định

Trang 19

được sử dụng trong một số trường hợp nhất định đó là quy định cho sự tồn tạicủa một lớp đặc biệt gọi là lớp từ chối hay là miền quyết định (reject region).

Ký hiêu:

ω*: lớp được phân;

ωi: lớp với xác suất hậu nghiệm cực đại, chẳng hạn P(ωi|x) = max P(wj|x) vớimọi lớp ωij # ωi

Luật Bayes có thể viết như sau ω*= ωi

Bây giờ ta quy định xác suất hậu nghiệm của một nút chai phải cao hơnnhiều so với một ngưỡng từ chối (reject threshold) nhất định λr, nếu không nó

sẽ được phân vào reject class wr

Công thức Bayes được viết lại như sau:

Khi tính toán tỉ số hợp lý (likelihood ratio) với tỷ số xác suất tiên nghiệm (prevalence ratio), thì ta phải nhân tỉ số này với (1-λr)/λr Một lớp c

không bao giờ có một rejection nếu λr < (c-1)/c, do đó λr Є [(c-1)/c, 1]

Chúng ta sẽ minh họa khái niệm reject class sử dụng dữ liệu cork stoppers.Giả sử rằng một reject threshold λr = 0.7 là ngưỡng được quy định Tính biênquyết định cho reject class là đủ để xác định hàm phân lớp với các xác suấttiên nghiệm P(ω1) = 1-λr = 0.3, P(ω2) = 1-λr = 0.7 Các đường thẳng quyếtđịnh là các đường nghiêng và giao với trục tung tại PRT10=15.5 vàPRT10=20.1 Chú ý rằng hai đường này có xu hướng đối xứng nhau quađường thẳng quyết định đã được xác định Hình 12 là biểu đồ phân tán vớicác đường quyết định mới vùng ở giữa hai đường thẳng là reject region

Ngày đăng: 31/10/2019, 17:13

TỪ KHÓA LIÊN QUAN

w