sử dụng hàm cực đại vào bài toán phân biệt và phân chùm

Nói rõ hơn, phân biệt discriminant ở đây được hiểu là tách biệt các nhóm dựa trên độ đo thuộc tính của đối tượng trong nhóm và từ đó xác định quy tắc để phân loại một đối tượng mới vào

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM

SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT

VÀ PHÂN CHÙM

LUẬN VĂN THẠC SĨ TOÁN HỌC

Thành phố Hồ Chí Minh – 2012

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM

Ngu yễn Thị Hải Yến

SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT

VÀ PHÂN CHÙM

Chuyên ngành: Toán giải tích

Mã số: 60 46 01

LUẬN VĂN THẠC SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

GS TS ĐẶNG ĐỨC TRỌNG

T hành phố Hồ Chí Minh – 2012

Trang 3

LỜI CẢM ƠN

Để hoàn thành khóa học Thạc sĩ, em được GS TS Đặng Đức Trọng, giáo

viên hướng dẫn, giao cho một đề tài liên quan đến hai lĩnh vực là Toán giải tích và Xác suất - thống kê Là một học viên chuyên ngành Toán Giải tích, có kiến thức về Xác suất thống kê còn hạn chế, đề tài này là một thứ khá mới mẻ và thử thách với

em Thầy đã dành nhiều thời gian, hướng dẫn em phương pháp nghiên cứu khoa học, cũng như nhiệt tình trao đổi, thảo luận những vấn đề em còn chưa rõ Điều này cũng là một trong những động lực to lớn giúp em hoàn thành đề tài của mình Em thực sự biết ơn thầy một cách sâu sắc

Em cũng cảm ơn rất nhiều hai thầy: TS Chu Đức Khánh và TS Đinh Ngọc

khoa học Em cũng xin cảm ơn ThS Nguyễn Văn Phong, bạn Dương Thanh

tài này

Em xin chân thành cảm ơn các thầy trong Khoa Toán – tin trường Đại học

Sư phạm TPHCM, đã tận tình giảng dạy chúng em, cùng các thầy cô Phòng Sau đại học đã tạo điều kiện cho chúng em trong hai năm học Cao học vừa qua

Em xin chân thành cảm ơn các thầy trong Ban giám hiệu, các thầy cô trong

Bộ môn Toán và các anh chị đồng nghiệp trong trường Dự bị đại học TPHCM đã

tạo điều kiện, động viên trong suốt quá trình em vừa đi học, vừa tham gia giảng dạy

tại trường Cảm ơn em Phan Lê Anh Nhật đã hướng dẫn, giúp đỡ chị trong một số

phần lập trình của luận văn

Em cảm ơn các anh chị trong lớp Toán giải tích K20, các bạn học Cao học

phòng 408E Kí túc xá Đại học Sư phạm, vì chúng ta đã cùng nhau kề vai sát cánh

trong hai năm học qua

Mình cảm ơn các bạn chung phòng, bạn bè, người thân đã luôn hỏi han,

động viên để mình hoàn thành khóa học và luận văn

Con xin được gửi ngàn lời cảm ơn đến bố mẹ và gia đình – những người đã,

đang và sẽ luôn yêu thương, lo lắng, bên con trên cả đường đời

Là con người, được sinh ra, được nuôi nấng, được dạy bảo, được yêu thương, được quan tâm, được giúp đỡ từ rất nhiều người - tất cả đã cho tôi thấy rằng mình thật là may mắn và mình càng phải biết phấn đấu nỗ lực, cũng như trân trọng những điều tốt đẹp đấy Một lần nữa, tôi xin cảm ơn tất cả mọi người rất nhiều!

Trang 4

Nguyễn Thị Hải Yến

Trang 5

DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ TIẾNG ANH

Population: tổng thể

Observation: quan sát

Procedure: cách thức

Prior probability: xác suất tiên nghiệm

Posterior probability: xác suất hậu nghiệm

Misclassification: phân loại sai

Cost of misclassification: giá của phân loại sai

Expected cost of misclassification (ECM): kỳ vọng giá phân loại sai Maximum likelihood: hợp lý cực đại

Asymptotic expansion: mở rộng tiệm cận

Overlapping coefficient: hệ số chồng lấp

Trang 6

MỤC LỤC LỜI CẢM ƠN

DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ

PHẦN MỞ ĐẦU

CHƯƠNG 0 KIẾN THỨC CHUẨN BỊ 1

0.1 Lý thuyết độ đo, tích phân và xác suất 1

0.2 Xác suất có điều kiện 8

0.3 Định lý Bayes 13

CHƯƠNG I QUÁ TRÌNH PHÂN LOẠI BAYES, SAI SỐ BAYES 16

1.1 Bài toán thực tế 16

1.2 Phân loại một phần tử vào một trong hai tổng thể 18

1.3 Phân loại một phần tử vào một trong m tổng thể, m>2 28

1.4 Phân loại một phần tử vào một trong hai tổng thể có phân phối chuẩn nhiều chiều 34

CHƯƠNG II HÀM CỰC ĐẠI VÀ KHOẢNG CÁCH L 1

48 2.1 Khoảng cách giữa các hàm mật độ xác suất 48

2.2 Khoảng cách L 1 của các hàm mật độ 49

CHƯƠNG III BÀI TOÁN PHÂN BIỆT 56

3.1 Xác định hàm cực đại của các hàm mật độ xác suất 56

3.2 Phương pháp hàm cực đại 58

3.3 Sai số Bayes trong phương pháp hàm cực đại 60

3.4 Thuật toán, chương trình tính toán 65

CHƯƠNG IV BÀI TOÁN PHÂN CHÙM 71

4.1 Định nghĩa độ rộng chùm 71

4.2 Tính chất và định lý về độ rộng chùm 72

4.3 Một số thuật toán phân chùm 75 KẾT LUẬN

TÀI LIỆU THAM KHẢO

Trang 7

PHẦN MỞ ĐẦU

1 LÝ DO CHỌN ĐỀ TÀI

Bài toán phân biệt (Bài toán phân tích sự khác biệt) Cho tập dữ liệu là hai

hay nhiều nhóm đối tượng (người, sự vật…) đã được xác định trước Bài toán phân

biệt là bài toán phân loại một đối tượng mới vào các nhóm đã cho, dựa trên việc đo

lường các thuộc tính (đặc trưng) mô tả đối tượng đó Nói rõ hơn, phân biệt

(discriminant) ở đây được hiểu là tách biệt các nhóm dựa trên độ đo thuộc tính của đối tượng trong nhóm và từ đó xác định quy tắc để phân loại một đối tượng mới vào

một trong các nhóm đó Giải thích theo ý nghĩa hình học là: Dựa trên phép đo thuộc tính, ta có một tương ứng giữa đối tượng ω với vector x trong không gian  p

Quy tắc phân biệt là tách không gian p

 thành các tập hợp , 1,R i i ∈ p sao cho nếu

j

x∈ thì R ω được phân loại vào nhóm thứ j Biểu diễn sự phân loại này bằng hình

vẽ được thể hiện là một đường hoặc một mặt để tách biệt hai hay nhiều nhóm với nhau

Bài toán phân chùm Cho tập các dữ liệu là các phần tử không biết đến từ bao nhiêu nhóm Cũng dựa trên phép đo thuộc tính của các phần tử này, chúng ta phân

chia chúng thành những cluster (chùm) Khái niệm cluster được hiểu là một nhóm

có sự tương đồng (same group), nghĩa là các phần tử trong cùng một cluster thì tương đồng nhau (“gần” nhau) theo một thuộc tính nào đó và các phần tử khác biệt nhau (“ít gần” nhau hơn) thì được phân vào các cluster khác nhau Việc phân chia

này phụ thuộc vào “khoảng cách” để đo mức độ sự tương đồng (“gần”, “xa”) của

các phần tử theo thuộc tính đã chọn và kỹ thuật (hay thuật toán) phân chùm

Các bài toán trên là một trong những ứng dụng quan trọng của thống kê

Chúng được đặt ra là do xuất phát từ yêu cầu phát triển của kinh tế xã hội và được ứng dụng trong nhiều lĩnh vực như kinh tế học, sinh học, y học, xã hội học… Các kết quả nghiên cứu các bài toán này là không nhiều

Trong đề tài này, hàm cực đại được sử dụng trong quy tắc phân loại của bài

toán phân biệt và “khoảng cách” trong bài toán phân chùm Dựa trên luận án tiến sĩ [1] và hai bài báo [2], [3], chúng tôi nghiên cứu, tìm hiểu đề tài

Trang 8

“ SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT VÀ PHÂN CHÙM”

2 BỐ CỤC CỦA LUẬN VĂN

Chương 0 - Kiến thức chuẩn bị

Chương này sẽ trình bày những kiến thức cơ bản được sử dụng trong luận văn:

Lý thu yết về độ đo, tích phân theo độ đo, xác suất; Xác suất có điều kiện; Định lý Bayes

Chương 1 - Quá trình phân loại Bayes, sai số Bayes

Đầu tiên, để minh họa cho bài toán phân biệt, chương này đưa ra một bài toán thực tế là bài toán phân loại cá Lý thuyết chính của chương này trình bày nội dung:

Phân loại một phần tử vào một trong hai tổng thể, phân loại một phần tử vào một trong n (n > 2) tổng thể với điều kiện biết xác suất tiên nghiệm của các tổng thể,

cũng như với điều kiện chưa cho trước xác suất tiên nghiệm của các tổng thể Với mỗi nội dung, chúng tôi trình bày các khái niệm: cách phân loại Bayes, sai số Bayes

và quy tắc phân loại để giải quyết được bài toán Bayes Phần cuối của chương này

là áp dụng lý thuyết phân loại ở trên để phân loại một phần tử vào các tổng thể có

phân phối chuẩn nhiều chiều

Chương này trình bày khái niệm về khoảng cách giữa các hàm mật độ xác

suất, từ đó dựa trên hàm cực đại đưa ra định nghĩa khoảng cách L 1 giữa các hàm mật độ xác suất {f x i( )} và giữa các hàm {g x i( )}có dạng ( ) g x i =q f x i i( )với

q

=

∑ ; định nghĩa hệ số chồng lấp của các hàm {f x i( )}, {g x i( )}

Chương này còn trình bày mối quan hệ giữa khoảng cách L 1 của các hàm mật

độ xác suất {f x i( )}, các hàm {g x i( )}, với hệ số chồng lấp của chúng; biên của khoảng cách L 1 giữa các hàm mật độ xác suất {f x i( )}, các hàm {g x i( )} thông qua

số lượng hàm mật độ, xác suất tiên nghiệm và khoảng cách L 1 của hai hàm mật độ

Chương 3 - Bài toán phân biệt

Dựa vào hàm cực đại, lý thuyết phân loại ở chương I, chúng tôi trình bày một

quy tắc phân loại phần tử mới gọi là Phương pháp hàm cực đại Chương này còn

Trang 9

trình bày công thức tính sai số Bayes, trình bày mối liên hệ giữa sai số Bayes với hệ

số chồng lấp, biên của sai số Bayes thông qua số lượng hàm mật độ, xác suất tiên nghiêm Phần cuối của chương này, chúng tôi trình bày thuật toán và chương trình

phân loại phần tử mới, tìm hàm cực đại và tính sai số Bayes Trong chương trình,

chúng tôi áp dụng cho hàm mật độ xác suất của phân phối chuẩn một chiều

Chương 4 - Bài toán phân chùm

Chương này đưa ra khái niệm độ rộng chùm để xem là “khoảng cách” trong

phân tích chùm Chúng tôi trình bày một số định lý về mối quan hệ giữa hai độ

rộng chùm chỉ khác nhau một phần tử và độ rộng của hợp hai chùm, để có thể đánh

giá được mức độ “gần nhau” của các phần tử trong chùm cũng như mức độ “xa nhau” giữa các chùm Dựa trên “khoảng cách” là độ rộng chùm, phần cuối của

chương này trình bày ba thuật toán cho ba phương pháp phân chùm khác nhau:

phương pháp phân cấp, phương pháp không phân cấp và phương pháp xây dựng

chùm với độ rộng chùm cho trước

Trang 10

CHƯƠNG 0 KIẾN THỨC CHUẨN BỊ

0.1 Lý thuyết độ đo, tích phân và xác suất

0.1.1 Một số khái niệm độ đo

Định nghĩa 0.1.1.1 Cho  là một tập các tập con của không gian mẫu Ω  được gọi là σ - đại số khi và chỉ khi nó thỏa các điều kiện sau:

∞

=

∈

Khi đó,(Ω,) được gọi là không gian đo Các phần tử của  được gọi là các tập đo

được mà trong xác suất và thống kê ta thường gọi là các biến cố

Định nghĩa 0.1.1.2 Cho A⊂ Ω ,A≠ Ω, khi đó  { , , , c}

A A

= ∅ Ω là một σ - đại số nhỏ nhất chứa A Ta ký hiệu là σ({ })A , hay ta còn gọi là σ - đại số sinh bởi A

Tổng quát, một σ - đại số nhỏ nhất chứa , trong đó  là một họ các tập con của Ω, ký hiệu là σ( )  được gọi là σ - đại số sinh bởi  Đặc biệt, nếu  là một σ -

đại số thì σ( )  = 

Định nghĩa 0.1.1.3 Cho Ω = ,  là họ tất cả các khoảng mở hữu hạn trên R

thì=σ( ) được gọi là σ - đại số Borel Các phần tử thuộc gọi là tập Borel

Chứng minh được rằng, tất cả các khoảng (hữu hạn hoặc vô hạn), các tập đóng, các tập mở đều là các tập Borel

Định nghĩa 0.1.1.4 Giả sử (Ω,) là không gian đo, khi đó một hàm tập hợp ν xác định trên  được gọi là một độ đo, nếu và chỉ nếu thoả mãn các tính chất sau

i 0 ≤v A( ) ≤ ∞ với mọi A∈,

Trang 11

ii v( ) ∅ = 0,

iii Tính cộng tính đếm được của độ đo: Nếu A i∈  ,i= 1, 2, và A iA j = ∅ với

i≠ j thì

1 1

( )

i i

Khi đó, bộ (Ω, v, ) được gọi là không gian đo

Định nghĩa 0.1.1.5 Một độ đo v trên ( , Ω  )được gọi là σ - hữu hạn nếu tồn tại một

( )

i i

Định nghĩa 0.1.1.6 Cho (Ω,)và (Λ,) là các không gian đo được, f là một ánh xạ

từ Ω vào Λ được gọi là hàm đo được từ (Ω,)vào (Λ,) nếu và chỉ nếu

Trang 12

Định nghĩa 0.1.1.7 Cho (Ω,)và (Λ,) là các không gian đo được, f là hàm đo được từ (Ω,)vào (Λ,) Khi đó, f−1( ) gọi là σ - đại số sinh bởi f , được ký hiệu

là σ( )f

Định nghĩa 0.1.1.8 Cho (Ω, v, ) là không gian độ đo và f là một hàm đo được từ

(Ω,) vào (Λ,) Độ đo cảm sinh bởi f , ký hiệu là 1

v f − , là độ đo trên  được xác định bởi

Nếu A là tập đo được thì I Alà một hàm Borel

Định nghĩa 0.1.1.11 ChoA A1, 2, ,A klà các tập đo được trên Ω và a a1, 2, ,a klà các số

thực Hàm đơn giản là tổ hợp tuyến tính các hàm đặc trưng của các tập đo được, nghĩa

là

1

( ) ( )

i k

i A i

a phân biệt là một đặc trưng cho phân hoạch này, và σ ϕ( )=σ({ ,A A1 2, ,A k})

Định nghĩa 0.1.1.12 Tích Cartesian của k tập A1, ,A kđược định nghĩa là tập tất cả các phần tử có dạng a1, ,a , k a iA i và được ký hiệu làA1   Cho A k (Ω i, i,v i),

Trang 13

0.1.2 Định nghĩa tích phân theo độ đo

Định nghĩa 0.1.2.1a Nếu ϕ là hàm đơn giản không âm, nghĩa là

1

i n

i A i

( ) ( ) ( )

f ω = f+ ω − f− ω và f( )ω = f+( )ω + f−( )ω

Định nghĩa 0.1.2.1d Giả sử f là hàm Borel, ta nói rằng tích phân ∫ fdv tồn tại nếu và chỉ nếu ít nhất một trong hai tích phân ∫ f dv+ và ∫ f dv− là hữu hạn Khi đó

Trang 14

=∫ tồn tại hầu khắp nơi v2 và xác định một hàm Borel trên Ω mà 2

tích phân của nó theo độ đo v2 tồn tại và

Trang 15

Không gian xác suất và các đặc trưng của nó được xây dựng và mở rộng từ lý thuyết độ đo và tích phân

Định nghĩa 0.1.3.1 (Hệ tiên đề Kolmogorov) Cho bộ ba (Ω, ,P) với

i Ω là tập hợp tùy ý các phần tử ω ,

ii là đại số các tập con của Ω,

iii P là một độ đo xác suất, nghĩa là P( ) Ω = 1

Khi đó (Ω, ,P)được gọi là không gian xác suất Tập Ω được gọi là không gian các biến cố sơ cấp Tập A∈  được gọi là các biến cố, P gọi là xác suất trên  , P A( )

là xác suất của biến cố A

Định nghĩa 0.1.3.2 Cho P là một độ đo xác suất trên (  Khi đó, hàm phân phối , )

tích luỹ của P (c.d.f) được định nghĩa bởi

iii F là hàm không giảm, nghĩa là F x( ) ≤F y( ) nếu x≤ y,

iv F liên tục phải, nghĩa là

(Ω,)nhận giá trị trong (Λ,) Đặc biệt, khi (Λ,)≡  ( , ), X là hàm đo được từ

( , Ω  ) vào ( , )   thì X được gọi biến ngẫu nhiên

Trang 16

Định nghĩa 0.1.3.4 ChoX là biến ngẫu nhiên xác định trên (Ω, ,P) Hàm tập

F cũng được gọi là hàm phân phối của X

Định nghĩa 0.1.3.5 Cho X là một biến ngẫu nhiên khả tích trên không gian (Ω, ,P)

Khi đó, kỳ vọng của X, ký hiệu EX hay E X( ) được xác định bởi

( )

E X =∫XdP

Nhận xét: E I( A) =∫I dP A =P A( )

Định nghĩa 0.1.3.6 Cho ,P v là hai độ đo trên (Ω  , Giả sử , ) P là độ đo xác suất, v

là độ đo σ hữu hạn, Pv Khi đó, hàm Borel không âm f trên Ω thỏa

( )

A

P A =∫ fdv được gọi là hàm mật độ xác suất theo độ đo v Hơn nữa, nếu độ đo xác suất P tương ứng với hàm phân phối tích lũy F hoặc biến ngẫu nhiên X thì f cũng

được gọi là hàm mật độ xác suất của F hoặc hàm mật độ xác suất của X

Định lý 0.1.3.1 Cho X là một biến ngẫu nhiên trên không gian xác suất (Ω, ,P), có phân phối liên tục tuyệt đối với hàm mật độ ( )f x Với mọi hàm thực ϕ từ  vào ,

Định nghĩa 0.1.3.7 Cho P là một độ đo xác suất trên không gian ( k,k) Hàm phân

phối tích lũy đồng thời của Pđược định nghĩa

Trang 17

Định nghĩa 0.1.3.8 ChoX là vector ngẫu nhiên xác định trên (Ω, ,P) Hàm tập

F cũng được gọi là hàm phân phối của X

Định nghĩa 0.1.3.8 X là hàm đo được từ ( , Ω  ) vào (  k, k) thì X được gọi vector

ngẫu nhiên k chiều

Định nghĩa 0.1.3.9 Thành phần thứ i của X là biến ngẫu nhiên X i có hàm phân phối tích lũy là

1 1 1 , 1, 2, , 1, 1, ,

F còn được gọi là hàm phân phối biên của X i

Định nghĩa 0.1.3.10 Nếu F X có hàm mật độ là f X, thì X i có hàm mật độ xác suất

Định nghĩa 0.1.3.11 Biến ngẫu nhiên X được gọi có phân phối chuẩn (phân phối

Gauss) một chiều, ký hiệu 2

Phân phối chuẩn X N(0,1) được gọi là phân bố chuẩn tắc

0.2 Xác suất có điều kiện

0.2.1 Điều kiện trên một biến cố

Cho A, B là các biến cố trên không gian xác suất,,P A( ) > 0

Xác suất có điều kiện P B A( | )là xác suất để B xảy ra khi biết A đã xảy ra

( ) ( | ) :

Trang 18

Dễ dàng kiểm tra P( | )A là một độ đo xác suất mới trên , Độ đo này dùng để

tính lại xác suất của B (sau khi biết thêm dữ kiện là biến cố A xảy ra)

Nhận xét: ( | )

( )

A B

Cho X là một biến ngẫu nhiên, A là một biến cố mà P A( ) > 0

Trước khi biết A xảy ra, kỳ vọng của X

EX =∫XdP

Khi biết A đã xảy ra, ta tính lại kỳ vọng, bằng cách sử dụng độ đo xác suất mới P( | )A

Khi đó kỳ vọng của X (cho trước điều kiện A) là E X A[ | ]=∫XdP( | )A

( | ) ( | )

0.2.2 Điều kiện trên một σ - đại số: Không gian rời rạc

Giả sử  , , Plà không gian xác suất rời rạc, Ω ={ωn:n∈ }

X là một biến ngẫu nhiên;  là s- đại số con của

Khi đó Z là  - đo được

Hơn nữa E Z B[ | n]=c n =E X B[ | n] Do đó E Z B[ ; n]=E X B[ ; n] với mọi B n

Với mỗi G∈  , ta có E Z G[ | ]=E X G[ | ]

Định nghĩa 0.2.2.1 Z:=E X[ |] gọi là kỳ vọng có điều kiện của biến ngẫu nhiên khả tích khi cho trước  Khi đó, Z là một biến ngẫu nhiên có các tính chất sau

Trang 19

i Z là  đo được

ii

G ZdP= G XdP

0.2.3 Điều kiện trên một σ - đại số: Không gian tổng quát

Định nghĩa 0.2.3.1 Cho X là một biến ngẫu nhiên khả tích trên  , , P Cho  là một s - đại số con trên  Kỳ vọng có điều kiện của biến ngẫu nhiên X với điều kiện , ký hiệu là E X | là biến ngẫu nhiên duy nhất hầu chắc chắn thỏa hai điều 

Định nghĩa 0.2.3.3 Cho Y là hàm đo được từ  , , P vào   Kỳ vọng có điều , 

kiện của (hàm đo được) X với điều kiện (hàm đo được) Y được định nghĩa

 |   |   

E X Y E X s Y

Định lý 0.2.3.1 Cho Y là hàm đo được từ   vào ,    và Z là một hàm từ , 

 ,  vào  Khi đó Z là hàm đo được từ k ,s Y vào   khi và chỉ khi có k, k

một hàm h đo được từ   vào ,    mà Z h Y k, k  

Chứng minh (trong trường hợp phân phối rời rạc)

Giả sử: X là một biến ngẫu nhiên khả tích trên  , , P

A A1, 2, là các biến cố trên , , P với A iA j   ,i j,   , A i

 i 0

P A  với mọi i

Trang 20

Định lý được chứng minh

Hệ quả

ChoA  và X  I A

Trang 21

Mệnh đề Cho X là biến ngẫu nhiên n chiều, Y là biến ngẫu nhiên m chiều Giả sử

X Y, có hàm mật độ đồng thời là f x y , xác định trên vl, với v ,l là độ đo tương ứng trên   và n, n   Cho m, m g x y , 

i h Y là hàm đo được trên ( ) ,s Y 

Theo Định lý 0.1.2.1 (Định lý Fubini), h là hàm Borel

Do đó theo Định lý 0.2.3.1 thì ( )h Y là hàm Borel trên ,s Y 

Trang 22

ii   1    1 

E h Y Y B Eg X Y Y B  với mọi 1   

Y B s Y Theo định lý Fubini f Y y  f x y dv x ,    là hàm mật độ của Y ứng với l

  (theo định lý đổi biến)

Ta được điều phải chứng minh

Định nghĩa 0.2.3.4 Cho vector ngẫu nhiên X Y có hàm mật độ ,  f x y( , ) tương ứng trên vl, ta định nghĩa hàm mật độ có điều kiện của X với điều kiện Y  y là

|

( , ) ( | )

Cố định y với f Y( )y  0, f X Y| ( | )x y là một hàm mật độ theo độ đo v

0.3.1 Định lý Bayes cho trường hợp phân phối rời rạc

Định lý 0.3.1.1 Giả sử A và B là hai biến cố trên một không gian xác suất, P B( )>0

Trang 23

( | ) ( )( | )

P B A là xác suất của biến cố B khi biết biến cố A đã xảy ra, còn được gọi là xác ( | )

suất hậu nghiệm của biến cố B

Định nghĩa 0.3.1.1 Giả sử B i i, = 1 2 , , ,n là các biến cố Khi đó, họ các B i được gọi là đầy đủ (hay một phân hoạch của Ω), nếu

Trang 24

Nếu tất cả các ( | )P A B , i i =1, ,n bằng nhau thì khả năng xuất hiện của biến cố A

không ảnh hưởng đến khả năng xuất hiện của các B i và do đó xác suất tiên nghiệm B i

bằng xác suất hậu nghiệm

0.3.2 Định lý Bayes cho trường hợp phân phối liên tục

Cho X là biến ngẫu nhiên liên tục xác định trên (Ω, ,P) Giả sử B i i, = 1 2 , , ,n một phân hoạch của Ω Giả sử ta biết phân phối của biến ngẫu nhiên X trên mỗi lớp B i

Xác suất có điều kiện của mỗi B i khi cho trước X = x , được xác định

Trang 25

CHƯƠNG I QUÁ TRÌNH PHÂN LOẠI BAYES, SAI SỐ BAYES

1.1 Bài toán thực tế

Bài toán (tài liệu [9]) Một nhà máy đóng gói muốn tự động hóa quá trình phân loại cá

trên một băng chuyền theo từng loại cá Giả sử trên băng chuyền chỉ có hai loại cá: cá trích và cá hồi Ta có thể phân loại hai loại cá này với nhau qua các đặc điểm: chiều dài, chiều rộng, hình dạng, hình dạng và chiều dài vây, vị trí miệng… Ta cũng cần chú

ý đến các yếu tố gây nhiễu, ảnh hưởng trong quá trình nhận diện hình ảnh như ánh sáng, vị trí của cá trên băng chuyền… Ta giả thiết rằng thực sự có sự khác nhau giữa

hai loại cá này và ta sẽ xây dựng mô hình toán học để mô tả sự khác nhau này

Quá trình phân loại được thực hiện như sau

i Đầu tiên máy ảnh sẽ chụp hình mẫu cá

ii Lấy độ đo: Xử lý các hình ảnh đơn giản đi, sao cho không làm mất các thuộc tính mà ta cần xét để phân loại Trên mỗi con cá, lấy giá trị của các thuộc tính cần xét

đó Thuộc tính của mỗi con cá (nói chính xác là giá trị của mỗi thuộc tính) sẽ là thông tin để từ đó, phân loại chúng theo loài

iii Đưa ra quyết định phân loại

Ở đây ta đề cập đến một số vấn đề

Trích chọn thuộc tính để thực hiện được bước ii: Cho giả thiết rằng, nhìn chung, cá hồi

dài hơn cá trích Do đó, ta có thể sử dụng “chiều dài” như là một thuộc tính để phân loại giữa hai loại cá Thông qua việc xét chiều dài của các loại cá này trên nhiều mẫu

thử, ta sẽ xác định một biên của phân loại ( hay giá trị phân biệt) l* để phân loại cá Nếu một con cá có chiều dài l lớn hơn biên của phân loại l*, ta sẽ phân loại nó vào loại

cá hồi và ngược lại

Trang 26

Hình 1

Để cho việc phân loại chính xác hơn, tương tự, người ta lại xem xét thêm một thuộc tính nữa là độ sáng của vảy giữa hai loại cá

Hình 2

Phân loại sai Trong quá trình phân loại như vậy, có hai khả năng phân loại sai là phân

loại sai cá hồi vào loại cá trích và ngược lại Với mỗi trường hợp phân loại sai, ta có khái niệm “giá của phân loại sai” tương ứng Mục đích của bài toán phân loại là xây dựng một quy tắc phân loại sao cho tổng giá phân loại sai là nhỏ nhất có thể Thông thường giá của phân loại sai trong các trường hợp có tính đối xứng, nhưng cũng có một vài trường hợp không phải như thế Ví dụ, giả sử theo khẩu vị của số đông, cá hồi được

ưa chuộng hơn cá trích Người mua cá trích có thể dễ dàng chấp nhận nếu thấy có vài con cá hồi trong giỏ của mình, nhưng ngược lại thì không Để không làm mất lòng người mua, nhà đóng gói cá sẽ hạn chế (đến mức có thể) số lượng cá trích trong phân

Trang 27

loại cá hồi Thực hiện việc này, họ có thể phải thay đổi biên của phân loại (trong trường hợp này, người ta có thể giảm giá trị l*) Càng nhiều người mua cá trích, giá phân loại sai cá trích trong khi nó thực sự là cá hồi càng cao, biên phân loại l* càng

thấp

Như vậy, mục đích của bài toán phân loại là xây dựng một quy tắc phân loại (nghĩa là,

xác định giá trị biên phân loại) sao cho tổng giá phân loại sai là càng nhỏ càng tốt

Xây dựng mô hình toán học

Trên mỗi con cá, ta quan tâm đến hai đặc điểm để phân loại là x - 1 chiều dài; x - 2 độ sáng của vảy cá Khi đó, mỗi con cá được biểu diễn tương ứng một vector x=( ,x x1 2)Ttrong không gian hai chiều

Hình 3

Ta xác định biên phân loại để phân chia không gian cần xét thành hai miền: một miền

để phân loại cá hồi, một miền là cá trích Nhìn vào hình 3, nếu vector x=( ,x x1 2)Tthuộc miền bên trái thì ta phân loại nó vào nhóm cá hồi và ngược lại

1.2 Phân loại một phần tử vào một trong hai tổng thể

1.2.1 Quá trình phân loại Bayes, sai số Bayes

Bài toán tổng quát

Xét không gian mẫu Ω Giả sử Ω Ω ⊂ Ω sao cho 1, 2 Ω ∩ Ω = ∅ , 1 2 Ω ∪ Ω = Ω1 2

Trang 28

Ánh xạ thuộc tính : p

Với mỗi phần tử thuộc không gian mẫu Ω, ta thực hiện một phép đo T, hay còn gọi là

ánh xạ thuộc tính T Với mỗi phần tử ω∈Ω, ta xác định

Với mỗi cách phân loại R(R R1, 2), ta chia  làm 2 miền p R và 1 R2

Nếu xT( )w  , thì ta phân loại R1 ωvào tổng thể Ω 1

Nếu xT( )w  , thì ta phân loại R2 ωvào tổng thể Ω 2

Trong quá trình phân loại, có thể xảy ra trường hợp: phân loại ωvào Ω trong khi nó 2thực sự thuộc vào Ω1, hoặc ngược lại, phân loại ω vào Ω1 trong khi nó thực sự thuộc vào Ω T2 a gọi hai trường hợp đó là phân loại sai

Mục tiêu đặt ra là chọn hai miền R và 1 R 2 như thế nào để cực tiểu xác suất phân loại sai, hay đặc biệt hơn là cực tiểu trung bình sự ảnh hưởng của việc phân loại sai

Trang 29

Với cách phân loạiR(R R1, 2), ta có

Xác suất phân loại đúng phần tử vào Ω là 1

Với các giá trị ( | )C i j , q , i f x i( ) cho trước, giá trị ECM phụ thuộc cách phân loại R

chia không gian đo thành hai miền R và 1 R 2

Định nghĩa 1.2.1.2

Cách phân loại R cực tiểu hóa kỳ vọng giá phân loại sai ECM thì R được gọi là cách

phân loại Bayes Khi ( | ) 1, C i j = i ≠ , giá trị nhỏ nhất của ECM được gọi là sai số j

Bayes

Trang 30

1.2.2 Phương pháp phân loại Bayes trong trường hợp biết xác suất tiên nghiệm của hai tổng thể

Ý tưởng xây dựng phương pháp

Xét trường hợp giá phân loại sai (1| 2)C =C(2 |1) 1=

Kỳ vọng giá phân loại sai

cũng chính là xác suất phân loại sai Do đó, trong trường hợp này, “cực tiểu hóa ECM”

cũng chính là “cực tiểu hóa xác suất phân loại sai” Với phần tử ωcho trước, ta cực tiểu hóa xác suất phân loại sai bằng cách phân loại ω vào tổng thể có xác suất (có điều kiện) lớn hơn

Xác suất có điều kiện của một phần tử ωcho trước, thuộc tổng thể ,Ωi i=1, 2

Nếu P(1| )x  P( 2| )x thì ta phân loại ω vào tổng thể  1

Nếu P(1| )x  P( 2| )x thì ta phân loại ω vào tổng thể  2

Nếu P(1| )x  P( 2| )x thì phần tử ω được phân loại vào tổng thể nào cũng được, do đó ta phân loại tùy ý vào  1

Trang 31

Cho q , 1 q 2 là hằng số không âm, f x ,1( ) f x 2( ) là hàm số không âm, x=T( )ω Nếu

Hơn nữa, nếu P( {ω:q f T1 1( ( ))ω =q f T2 2( ( ))ω } ω∈Ω =i) 0 với i1, 2 thì cách chọn

hai miền R và 1 R 2 để cực tiểu

1 1( ) 2 2( )

q ∫ f x dx+q ∫ f x dx là duy nhất, trừ tập có độ đo xác suất không

Trang 32

Cách chọn hai miền R R1, 2để cực tiểu

giá phân loại sai một phần tử vào thuộc  trong khi nó thực sự thuộc 2  và ngược 1

lại Khi đó, với R và 1 R 2 là hai tập con của  thỏa: n

Theo Định lý 1.2.2.1, với C(2 |1)q , 1 C(1| 2)q 2 là hằng số không âm, f x ,1( ) f x là 2( )

hàm số không âm, ta chọn hai miền R và 1 R2như sau

Trang 34

2 Cách phân loại R gọi là có thể chấp nhận được nếu không có cách phân loại

Trong trường hợp, khi phân loại, nếu không biết xác suất tiên nghiệm để một

phần tử bất kỳ thuộc vào hai tổng thể đã cho, thì ta sẽ tìm tập lớp các cách phân loại có

thể chấp nhận được, rồi chứng minh cách phân loại có thể chấp nhận được là cách phân loại Bayes thông qua các định lý dưới đây

Định lý 1.2.3.1 Với P{f T2( ( ))ω =0 |Ω =1} 0, P{f T1( ( ))ω =0 |Ω =2} 0, cách phân

loại Bayes là cách phân loại có thể chấp nhận được

Chứng minh

Giả sử R=( ,R R1 2) là một cách phân loại Bayes tương ứng với q ,1 q 2 cho trước

Để chứng minh cách phân loại R là cách phân loại có thể chấp nhận được, ta chứng

minh không có cách phân loại nào tốt hơn R, hay với mọi cách phân loại *

R , R* không tốt hơn R , nghĩa là

R = R R , do R=( ,R R1 2) là một cách phân loại Bayes,

theo định nghĩa của ECM, ta có

Trang 35

Khi đó, q2 =1 và r(2, )R ≤r(2,R*)(được suy ra từ (7))

Với q1= , 0 q2 = : 1 R=( ,R R1 2) là cách phân loại Bayes thì

Trường hợp q1 =1,q2 =0, chứng minh tương tự trên

Vậy định lý được chứng minh

Trang 36

Do đó, với q 1 bất kỳ thì cách phân loại Bayes là duy nhất (theo Định lý 1.2.2.1) Hơn

nữa, hàm phân phối của 1

2

( )( )

f x

f x trên mỗi tổng thể Ω và 1 Ω2là liên tục

Giả sử R là một cách phân loại có thể chấp nhận Khi đó tồn tại một giá trị k (do hàm

phân phối của 1

2

( )( )

f x

f x trên mỗi tổng thể Ω và 1 Ω2là liên tục) sao cho

1

1 2

q = , nghĩa là 1

11

q k

=+ ,

1 2

Trang 37

Tuy nhiên theo Định lý 1.2.3.1,

1.3 Phân loại một phần tử vào một trong m tổng thể, m>2

1.3.1 Phân loại Bayes, sai số Bayes trong trường hợp phân loại vào m tổng thể,

m>2

Bài toán tổng quát: Phân loại một phần tử ω vào một trong nhiều tổng thể Ω1, ,Ω mXét ảnh của ω qua ánh xạ thuộc tính (phép đo) T: x=T( )ω

Một cách phân loại, ký hiệu R= (R1 , ,R m), là sự phân chia không gian độ đo thành m

miền R1, ,R m sao cho: Nếu phần tử ω mà x=T( )ω thuộc vàoR i thì ta phân loại ω

vào tổng thể Ω , i i∈{1, ,m}

Yêu cầu đặt ra là xây dựng quá trình phân loại (chọn m miền R1, ,R ) m như thế nào để

kỳ vọng giá phân loại sai là bé nhất

q q lần lượt là xác suất tiên nghiệm của các tổng thể Ω1, ,Ω m

Với mỗi cách phân loại R(R1, ,R m), ta có

Trang 38

C i j = i ≠ , giá trị nhỏ nhất của ECM được gọi là sai số Bayes j

1.3.2 Phương pháp Bayes trong trường hợp biết xác suất tiên nghiệm của các tổng thể

Ý tưởng xây dựng phương pháp

Xác suất có điều kiện của một phần tử ωcho trước, thuộc tổng thể Ω ,i i1, 2, ,m là

( )

( | )( )

m

i i m i

i j k k k

q f x



Trang 39

j =k thì ta sẽ phân loại phần tử đó vào tổng thể Ω k

Từ ý tưởng trên, ta có định lý dưới đây

Định lý 1.3.2.1

Cho m tổng thể Ω i có hàm mật độ xác suất (có điều kiện) tương ứng là ( ) f x , i

1, ,

i = m Giả sử q i là xác suất tiên nghiệm của tổng thể Ω , i i=1, ,m C j i là giá ( | )

phân loại sai một phần tử của tổng thể Ω , j trong khi nó thực sự thuộc vào tổng thể Ω , i

Hơn nữa, nếu xác suất các ω thỏa (3) , với điều kiện ω∈Ω i với mỗi i, với mỗi j và k ,

b ằng 0 thì cách phân loại để cực tiểu hóa ECM (cách phân loại Bayes) là duy nhất trừ tập có xác suất bằng 0

Chứng minh

Trang 40

h x dx h x R dx

=

Với quá trình Bayes *

R mô tả trong định lý, ( | )h x R là ( | *) min ( )i

1.3.3 Trường hợp phân loại khi xác suất tiên nghiệm không được cho trước

Trong trường hợp này, ta không thể xác định được ECM cho quá trình phân loại Tuy

nhiên, ta có thể xác định kỳ vọng giá phân loại sai (có điều kiện) của một phần tử đến

Định dạng
Số trang	90
Dung lượng	798,1 KB