Nói rõ hơn, phân biệt discriminant ở đây được hiểu là tách biệt các nhóm dựa trên độ đo thuộc tính của đối tượng trong nhóm và từ đó xác định quy tắc để phân loại một đối tượng mới vào
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM
SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT
VÀ PHÂN CHÙM
LUẬN VĂN THẠC SĨ TOÁN HỌC
Thành phố Hồ Chí Minh – 2012
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM
Ngu yễn Thị Hải Yến
SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT
VÀ PHÂN CHÙM
Chuyên ngành: Toán giải tích
Mã số: 60 46 01
LUẬN VĂN THẠC SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
GS TS ĐẶNG ĐỨC TRỌNG
T hành phố Hồ Chí Minh – 2012
Trang 3LỜI CẢM ƠN
Để hoàn thành khóa học Thạc sĩ, em được GS TS Đặng Đức Trọng, giáo
viên hướng dẫn, giao cho một đề tài liên quan đến hai lĩnh vực là Toán giải tích và Xác suất - thống kê Là một học viên chuyên ngành Toán Giải tích, có kiến thức về Xác suất thống kê còn hạn chế, đề tài này là một thứ khá mới mẻ và thử thách với
em Thầy đã dành nhiều thời gian, hướng dẫn em phương pháp nghiên cứu khoa học, cũng như nhiệt tình trao đổi, thảo luận những vấn đề em còn chưa rõ Điều này cũng là một trong những động lực to lớn giúp em hoàn thành đề tài của mình Em thực sự biết ơn thầy một cách sâu sắc
Em cũng cảm ơn rất nhiều hai thầy: TS Chu Đức Khánh và TS Đinh Ngọc
khoa học Em cũng xin cảm ơn ThS Nguyễn Văn Phong, bạn Dương Thanh
tài này
Em xin chân thành cảm ơn các thầy trong Khoa Toán – tin trường Đại học
Sư phạm TPHCM, đã tận tình giảng dạy chúng em, cùng các thầy cô Phòng Sau đại học đã tạo điều kiện cho chúng em trong hai năm học Cao học vừa qua
Em xin chân thành cảm ơn các thầy trong Ban giám hiệu, các thầy cô trong
Bộ môn Toán và các anh chị đồng nghiệp trong trường Dự bị đại học TPHCM đã
tạo điều kiện, động viên trong suốt quá trình em vừa đi học, vừa tham gia giảng dạy
tại trường Cảm ơn em Phan Lê Anh Nhật đã hướng dẫn, giúp đỡ chị trong một số
phần lập trình của luận văn
Em cảm ơn các anh chị trong lớp Toán giải tích K20, các bạn học Cao học
phòng 408E Kí túc xá Đại học Sư phạm, vì chúng ta đã cùng nhau kề vai sát cánh
trong hai năm học qua
Mình cảm ơn các bạn chung phòng, bạn bè, người thân đã luôn hỏi han,
động viên để mình hoàn thành khóa học và luận văn
Con xin được gửi ngàn lời cảm ơn đến bố mẹ và gia đình – những người đã,
đang và sẽ luôn yêu thương, lo lắng, bên con trên cả đường đời
Là con người, được sinh ra, được nuôi nấng, được dạy bảo, được yêu thương, được quan tâm, được giúp đỡ từ rất nhiều người - tất cả đã cho tôi thấy rằng mình thật là may mắn và mình càng phải biết phấn đấu nỗ lực, cũng như trân trọng những điều tốt đẹp đấy Một lần nữa, tôi xin cảm ơn tất cả mọi người rất nhiều!
Trang 4Nguyễn Thị Hải Yến
Trang 5DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ TIẾNG ANH
Population: tổng thể
Observation: quan sát
Procedure: cách thức
Prior probability: xác suất tiên nghiệm
Posterior probability: xác suất hậu nghiệm
Misclassification: phân loại sai
Cost of misclassification: giá của phân loại sai
Expected cost of misclassification (ECM): kỳ vọng giá phân loại sai Maximum likelihood: hợp lý cực đại
Asymptotic expansion: mở rộng tiệm cận
Overlapping coefficient: hệ số chồng lấp
Trang 6MỤC LỤC LỜI CẢM ƠN
DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ
PHẦN MỞ ĐẦU
CHƯƠNG 0 KIẾN THỨC CHUẨN BỊ 1
0.1 Lý thuyết độ đo, tích phân và xác suất 1
0.2 Xác suất có điều kiện 8
0.3 Định lý Bayes 13
CHƯƠNG I QUÁ TRÌNH PHÂN LOẠI BAYES, SAI SỐ BAYES 16
1.1 Bài toán thực tế 16
1.2 Phân loại một phần tử vào một trong hai tổng thể 18
1.3 Phân loại một phần tử vào một trong m tổng thể, m>2 28
1.4 Phân loại một phần tử vào một trong hai tổng thể có phân phối chuẩn nhiều chiều 34
CHƯƠNG II HÀM CỰC ĐẠI VÀ KHOẢNG CÁCH L 1
48 2.1 Khoảng cách giữa các hàm mật độ xác suất 48
2.2 Khoảng cách L 1 của các hàm mật độ 49
CHƯƠNG III BÀI TOÁN PHÂN BIỆT 56
3.1 Xác định hàm cực đại của các hàm mật độ xác suất 56
3.2 Phương pháp hàm cực đại 58
3.3 Sai số Bayes trong phương pháp hàm cực đại 60
3.4 Thuật toán, chương trình tính toán 65
CHƯƠNG IV BÀI TOÁN PHÂN CHÙM 71
4.1 Định nghĩa độ rộng chùm 71
4.2 Tính chất và định lý về độ rộng chùm 72
4.3 Một số thuật toán phân chùm 75 KẾT LUẬN
TÀI LIỆU THAM KHẢO
Trang 7PHẦN MỞ ĐẦU
1 LÝ DO CHỌN ĐỀ TÀI
Bài toán phân biệt (Bài toán phân tích sự khác biệt) Cho tập dữ liệu là hai
hay nhiều nhóm đối tượng (người, sự vật…) đã được xác định trước Bài toán phân
biệt là bài toán phân loại một đối tượng mới vào các nhóm đã cho, dựa trên việc đo
lường các thuộc tính (đặc trưng) mô tả đối tượng đó Nói rõ hơn, phân biệt
(discriminant) ở đây được hiểu là tách biệt các nhóm dựa trên độ đo thuộc tính của đối tượng trong nhóm và từ đó xác định quy tắc để phân loại một đối tượng mới vào
một trong các nhóm đó Giải thích theo ý nghĩa hình học là: Dựa trên phép đo thuộc tính, ta có một tương ứng giữa đối tượng ω với vector x trong không gian p
Quy tắc phân biệt là tách không gian p
thành các tập hợp , 1,R i i ∈ p sao cho nếu
j
x∈ thì R ω được phân loại vào nhóm thứ j Biểu diễn sự phân loại này bằng hình
vẽ được thể hiện là một đường hoặc một mặt để tách biệt hai hay nhiều nhóm với nhau
Bài toán phân chùm Cho tập các dữ liệu là các phần tử không biết đến từ bao nhiêu nhóm Cũng dựa trên phép đo thuộc tính của các phần tử này, chúng ta phân
chia chúng thành những cluster (chùm) Khái niệm cluster được hiểu là một nhóm
có sự tương đồng (same group), nghĩa là các phần tử trong cùng một cluster thì tương đồng nhau (“gần” nhau) theo một thuộc tính nào đó và các phần tử khác biệt nhau (“ít gần” nhau hơn) thì được phân vào các cluster khác nhau Việc phân chia
này phụ thuộc vào “khoảng cách” để đo mức độ sự tương đồng (“gần”, “xa”) của
các phần tử theo thuộc tính đã chọn và kỹ thuật (hay thuật toán) phân chùm
Các bài toán trên là một trong những ứng dụng quan trọng của thống kê
Chúng được đặt ra là do xuất phát từ yêu cầu phát triển của kinh tế xã hội và được ứng dụng trong nhiều lĩnh vực như kinh tế học, sinh học, y học, xã hội học… Các kết quả nghiên cứu các bài toán này là không nhiều
Trong đề tài này, hàm cực đại được sử dụng trong quy tắc phân loại của bài
toán phân biệt và “khoảng cách” trong bài toán phân chùm Dựa trên luận án tiến sĩ [1] và hai bài báo [2], [3], chúng tôi nghiên cứu, tìm hiểu đề tài
Trang 8“ SỬ DỤNG HÀM CỰC ĐẠI VÀO BÀI TOÁN PHÂN BIỆT VÀ PHÂN CHÙM”
2 BỐ CỤC CỦA LUẬN VĂN
Chương 0 - Kiến thức chuẩn bị
Chương này sẽ trình bày những kiến thức cơ bản được sử dụng trong luận văn:
Lý thu yết về độ đo, tích phân theo độ đo, xác suất; Xác suất có điều kiện; Định lý Bayes
Chương 1 - Quá trình phân loại Bayes, sai số Bayes
Đầu tiên, để minh họa cho bài toán phân biệt, chương này đưa ra một bài toán thực tế là bài toán phân loại cá Lý thuyết chính của chương này trình bày nội dung:
Phân loại một phần tử vào một trong hai tổng thể, phân loại một phần tử vào một trong n (n > 2) tổng thể với điều kiện biết xác suất tiên nghiệm của các tổng thể,
cũng như với điều kiện chưa cho trước xác suất tiên nghiệm của các tổng thể Với mỗi nội dung, chúng tôi trình bày các khái niệm: cách phân loại Bayes, sai số Bayes
và quy tắc phân loại để giải quyết được bài toán Bayes Phần cuối của chương này
là áp dụng lý thuyết phân loại ở trên để phân loại một phần tử vào các tổng thể có
phân phối chuẩn nhiều chiều
Chương này trình bày khái niệm về khoảng cách giữa các hàm mật độ xác
suất, từ đó dựa trên hàm cực đại đưa ra định nghĩa khoảng cách L 1 giữa các hàm mật độ xác suất {f x i( )} và giữa các hàm {g x i( )}có dạng ( ) g x i =q f x i i( )với
q
=
=
∑ ; định nghĩa hệ số chồng lấp của các hàm {f x i( )}, {g x i( )}
Chương này còn trình bày mối quan hệ giữa khoảng cách L 1 của các hàm mật
độ xác suất {f x i( )}, các hàm {g x i( )}, với hệ số chồng lấp của chúng; biên của khoảng cách L 1 giữa các hàm mật độ xác suất {f x i( )}, các hàm {g x i( )} thông qua
số lượng hàm mật độ, xác suất tiên nghiệm và khoảng cách L 1 của hai hàm mật độ
Chương 3 - Bài toán phân biệt
Dựa vào hàm cực đại, lý thuyết phân loại ở chương I, chúng tôi trình bày một
quy tắc phân loại phần tử mới gọi là Phương pháp hàm cực đại Chương này còn
Trang 9trình bày công thức tính sai số Bayes, trình bày mối liên hệ giữa sai số Bayes với hệ
số chồng lấp, biên của sai số Bayes thông qua số lượng hàm mật độ, xác suất tiên nghiêm Phần cuối của chương này, chúng tôi trình bày thuật toán và chương trình
phân loại phần tử mới, tìm hàm cực đại và tính sai số Bayes Trong chương trình,
chúng tôi áp dụng cho hàm mật độ xác suất của phân phối chuẩn một chiều
Chương 4 - Bài toán phân chùm
Chương này đưa ra khái niệm độ rộng chùm để xem là “khoảng cách” trong
phân tích chùm Chúng tôi trình bày một số định lý về mối quan hệ giữa hai độ
rộng chùm chỉ khác nhau một phần tử và độ rộng của hợp hai chùm, để có thể đánh
giá được mức độ “gần nhau” của các phần tử trong chùm cũng như mức độ “xa nhau” giữa các chùm Dựa trên “khoảng cách” là độ rộng chùm, phần cuối của
chương này trình bày ba thuật toán cho ba phương pháp phân chùm khác nhau:
phương pháp phân cấp, phương pháp không phân cấp và phương pháp xây dựng
chùm với độ rộng chùm cho trước
Trang 10CHƯƠNG 0 KIẾN THỨC CHUẨN BỊ
0.1 Lý thuyết độ đo, tích phân và xác suất
0.1.1 Một số khái niệm độ đo
Định nghĩa 0.1.1.1 Cho là một tập các tập con của không gian mẫu Ω được gọi là σ - đại số khi và chỉ khi nó thỏa các điều kiện sau:
∞
=
∈
Khi đó,(Ω,) được gọi là không gian đo Các phần tử của được gọi là các tập đo
được mà trong xác suất và thống kê ta thường gọi là các biến cố
Định nghĩa 0.1.1.2 Cho A⊂ Ω ,A≠ Ω, khi đó { , , , c}
A A
= ∅ Ω là một σ - đại số nhỏ nhất chứa A Ta ký hiệu là σ({ })A , hay ta còn gọi là σ - đại số sinh bởi A
Tổng quát, một σ - đại số nhỏ nhất chứa , trong đó là một họ các tập con của Ω, ký hiệu là σ( ) được gọi là σ - đại số sinh bởi Đặc biệt, nếu là một σ -
đại số thì σ( ) =
Định nghĩa 0.1.1.3 Cho Ω = , là họ tất cả các khoảng mở hữu hạn trên R
thì=σ( ) được gọi là σ - đại số Borel Các phần tử thuộc gọi là tập Borel
Chứng minh được rằng, tất cả các khoảng (hữu hạn hoặc vô hạn), các tập đóng, các tập mở đều là các tập Borel
Định nghĩa 0.1.1.4 Giả sử (Ω,) là không gian đo, khi đó một hàm tập hợp ν xác định trên được gọi là một độ đo, nếu và chỉ nếu thoả mãn các tính chất sau
i 0 ≤v A( ) ≤ ∞ với mọi A∈,
Trang 11ii v( ) ∅ = 0,
iii Tính cộng tính đếm được của độ đo: Nếu A i∈ ,i= 1, 2, và A iA j = ∅ với
i≠ j thì
1 1
( )
i i
Khi đó, bộ (Ω, v, ) được gọi là không gian đo
Định nghĩa 0.1.1.5 Một độ đo v trên ( , Ω )được gọi là σ - hữu hạn nếu tồn tại một
( )
i i
Định nghĩa 0.1.1.6 Cho (Ω,)và (Λ,) là các không gian đo được, f là một ánh xạ
từ Ω vào Λ được gọi là hàm đo được từ (Ω,)vào (Λ,) nếu và chỉ nếu
Trang 12Định nghĩa 0.1.1.7 Cho (Ω,)và (Λ,) là các không gian đo được, f là hàm đo được từ (Ω,)vào (Λ,) Khi đó, f−1( ) gọi là σ - đại số sinh bởi f , được ký hiệu
là σ( )f
Định nghĩa 0.1.1.8 Cho (Ω, v, ) là không gian độ đo và f là một hàm đo được từ
(Ω,) vào (Λ,) Độ đo cảm sinh bởi f , ký hiệu là 1
v f − , là độ đo trên được xác định bởi
Nếu A là tập đo được thì I Alà một hàm Borel
Định nghĩa 0.1.1.11 ChoA A1, 2, ,A klà các tập đo được trên Ω và a a1, 2, ,a klà các số
thực Hàm đơn giản là tổ hợp tuyến tính các hàm đặc trưng của các tập đo được, nghĩa
là
1
( ) ( )
i k
i A i
a phân biệt là một đặc trưng cho phân hoạch này, và σ ϕ( )=σ({ ,A A1 2, ,A k})
Định nghĩa 0.1.1.12 Tích Cartesian của k tập A1, ,A kđược định nghĩa là tập tất cả các phần tử có dạng a1, ,a , k a iA i và được ký hiệu làA1 Cho A k (Ω i, i,v i),
Trang 130.1.2 Định nghĩa tích phân theo độ đo
Định nghĩa 0.1.2.1a Nếu ϕ là hàm đơn giản không âm, nghĩa là
1
i n
i A i
( ) ( ) ( )
f ω = f+ ω − f− ω và f( )ω = f+( )ω + f−( )ω
Định nghĩa 0.1.2.1d Giả sử f là hàm Borel, ta nói rằng tích phân ∫ fdv tồn tại nếu và chỉ nếu ít nhất một trong hai tích phân ∫ f dv+ và ∫ f dv− là hữu hạn Khi đó
Trang 14=∫ tồn tại hầu khắp nơi v2 và xác định một hàm Borel trên Ω mà 2
tích phân của nó theo độ đo v2 tồn tại và
Trang 15Không gian xác suất và các đặc trưng của nó được xây dựng và mở rộng từ lý thuyết độ đo và tích phân
Định nghĩa 0.1.3.1 (Hệ tiên đề Kolmogorov) Cho bộ ba (Ω, ,P) với
i Ω là tập hợp tùy ý các phần tử ω ,
ii là đại số các tập con của Ω,
iii P là một độ đo xác suất, nghĩa là P( ) Ω = 1
Khi đó (Ω, ,P)được gọi là không gian xác suất Tập Ω được gọi là không gian các biến cố sơ cấp Tập A∈ được gọi là các biến cố, P gọi là xác suất trên , P A( )
là xác suất của biến cố A
Định nghĩa 0.1.3.2 Cho P là một độ đo xác suất trên ( Khi đó, hàm phân phối , )
tích luỹ của P (c.d.f) được định nghĩa bởi
iii F là hàm không giảm, nghĩa là F x( ) ≤F y( ) nếu x≤ y,
iv F liên tục phải, nghĩa là
(Ω,)nhận giá trị trong (Λ,) Đặc biệt, khi (Λ,)≡ ( , ), X là hàm đo được từ
( , Ω ) vào ( , ) thì X được gọi biến ngẫu nhiên
Trang 16Định nghĩa 0.1.3.4 ChoX là biến ngẫu nhiên xác định trên (Ω, ,P) Hàm tập
F cũng được gọi là hàm phân phối của X
Định nghĩa 0.1.3.5 Cho X là một biến ngẫu nhiên khả tích trên không gian (Ω, ,P)
Khi đó, kỳ vọng của X, ký hiệu EX hay E X( ) được xác định bởi
( )
E X =∫XdP
Nhận xét: E I( A) =∫I dP A =P A( )
Định nghĩa 0.1.3.6 Cho ,P v là hai độ đo trên (Ω , Giả sử , ) P là độ đo xác suất, v
là độ đo σ hữu hạn, Pv Khi đó, hàm Borel không âm f trên Ω thỏa
( )
A
P A =∫ fdv được gọi là hàm mật độ xác suất theo độ đo v Hơn nữa, nếu độ đo xác suất P tương ứng với hàm phân phối tích lũy F hoặc biến ngẫu nhiên X thì f cũng
được gọi là hàm mật độ xác suất của F hoặc hàm mật độ xác suất của X
Định lý 0.1.3.1 Cho X là một biến ngẫu nhiên trên không gian xác suất (Ω, ,P), có phân phối liên tục tuyệt đối với hàm mật độ ( )f x Với mọi hàm thực ϕ từ vào ,
Định nghĩa 0.1.3.7 Cho P là một độ đo xác suất trên không gian ( k,k) Hàm phân
phối tích lũy đồng thời của Pđược định nghĩa
Trang 17Định nghĩa 0.1.3.8 ChoX là vector ngẫu nhiên xác định trên (Ω, ,P) Hàm tập
F cũng được gọi là hàm phân phối của X
Định nghĩa 0.1.3.8 X là hàm đo được từ ( , Ω ) vào ( k, k) thì X được gọi vector
ngẫu nhiên k chiều
Định nghĩa 0.1.3.9 Thành phần thứ i của X là biến ngẫu nhiên X i có hàm phân phối tích lũy là
1 1 1 , 1, 2, , 1, 1, ,
F còn được gọi là hàm phân phối biên của X i
Định nghĩa 0.1.3.10 Nếu F X có hàm mật độ là f X, thì X i có hàm mật độ xác suất
Định nghĩa 0.1.3.11 Biến ngẫu nhiên X được gọi có phân phối chuẩn (phân phối
Gauss) một chiều, ký hiệu 2
Phân phối chuẩn X N(0,1) được gọi là phân bố chuẩn tắc
0.2 Xác suất có điều kiện
0.2.1 Điều kiện trên một biến cố
Cho A, B là các biến cố trên không gian xác suất,,P A( ) > 0
Xác suất có điều kiện P B A( | )là xác suất để B xảy ra khi biết A đã xảy ra
( ) ( | ) :
Trang 18Dễ dàng kiểm tra P( | )A là một độ đo xác suất mới trên , Độ đo này dùng để
tính lại xác suất của B (sau khi biết thêm dữ kiện là biến cố A xảy ra)
Nhận xét: ( | )
( )
A B
Cho X là một biến ngẫu nhiên, A là một biến cố mà P A( ) > 0
Trước khi biết A xảy ra, kỳ vọng của X
EX =∫XdP
Khi biết A đã xảy ra, ta tính lại kỳ vọng, bằng cách sử dụng độ đo xác suất mới P( | )A
Khi đó kỳ vọng của X (cho trước điều kiện A) là E X A[ | ]=∫XdP( | )A
( | ) ( | )
0.2.2 Điều kiện trên một σ - đại số: Không gian rời rạc
Giả sử , , Plà không gian xác suất rời rạc, Ω ={ωn:n∈ }
X là một biến ngẫu nhiên; là s- đại số con của
Khi đó Z là - đo được
Hơn nữa E Z B[ | n]=c n =E X B[ | n] Do đó E Z B[ ; n]=E X B[ ; n] với mọi B n
Với mỗi G∈ , ta có E Z G[ | ]=E X G[ | ]
Định nghĩa 0.2.2.1 Z:=E X[ |] gọi là kỳ vọng có điều kiện của biến ngẫu nhiên khả tích khi cho trước Khi đó, Z là một biến ngẫu nhiên có các tính chất sau
Trang 19i Z là đo được
ii
G ZdP= G XdP
0.2.3 Điều kiện trên một σ - đại số: Không gian tổng quát
Định nghĩa 0.2.3.1 Cho X là một biến ngẫu nhiên khả tích trên , , P Cho là một s - đại số con trên Kỳ vọng có điều kiện của biến ngẫu nhiên X với điều kiện , ký hiệu là E X | là biến ngẫu nhiên duy nhất hầu chắc chắn thỏa hai điều
Định nghĩa 0.2.3.3 Cho Y là hàm đo được từ , , P vào Kỳ vọng có điều ,
kiện của (hàm đo được) X với điều kiện (hàm đo được) Y được định nghĩa
| |
E X Y E X s Y
Định lý 0.2.3.1 Cho Y là hàm đo được từ vào , và Z là một hàm từ ,
, vào Khi đó Z là hàm đo được từ k ,s Y vào khi và chỉ khi có k, k
một hàm h đo được từ vào , mà Z h Y k, k
Chứng minh (trong trường hợp phân phối rời rạc)
Giả sử: X là một biến ngẫu nhiên khả tích trên , , P
A A1, 2, là các biến cố trên , , P với A iA j ,i j, , A i
i 0
P A với mọi i
Trang 20Định lý được chứng minh
Hệ quả
ChoA và X I A
Trang 21Mệnh đề Cho X là biến ngẫu nhiên n chiều, Y là biến ngẫu nhiên m chiều Giả sử
X Y, có hàm mật độ đồng thời là f x y , xác định trên vl, với v ,l là độ đo tương ứng trên và n, n Cho m, m g x y ,
i h Y là hàm đo được trên ( ) ,s Y
Theo Định lý 0.1.2.1 (Định lý Fubini), h là hàm Borel
Do đó theo Định lý 0.2.3.1 thì ( )h Y là hàm Borel trên ,s Y
Trang 22ii 1 1
E h Y Y B Eg X Y Y B với mọi 1
Y B s Y Theo định lý Fubini f Y y f x y dv x , là hàm mật độ của Y ứng với l
(theo định lý đổi biến)
Ta được điều phải chứng minh
Định nghĩa 0.2.3.4 Cho vector ngẫu nhiên X Y có hàm mật độ , f x y( , ) tương ứng trên vl, ta định nghĩa hàm mật độ có điều kiện của X với điều kiện Y y là
|
( , ) ( | )
Cố định y với f Y( )y 0, f X Y| ( | )x y là một hàm mật độ theo độ đo v
0.3.1 Định lý Bayes cho trường hợp phân phối rời rạc
Định lý 0.3.1.1 Giả sử A và B là hai biến cố trên một không gian xác suất, P B( )>0
Trang 23( | ) ( )( | )
P B A là xác suất của biến cố B khi biết biến cố A đã xảy ra, còn được gọi là xác ( | )
suất hậu nghiệm của biến cố B
Định nghĩa 0.3.1.1 Giả sử B i i, = 1 2 , , ,n là các biến cố Khi đó, họ các B i được gọi là đầy đủ (hay một phân hoạch của Ω), nếu
Trang 24Nếu tất cả các ( | )P A B , i i =1, ,n bằng nhau thì khả năng xuất hiện của biến cố A
không ảnh hưởng đến khả năng xuất hiện của các B i và do đó xác suất tiên nghiệm B i
bằng xác suất hậu nghiệm
0.3.2 Định lý Bayes cho trường hợp phân phối liên tục
Cho X là biến ngẫu nhiên liên tục xác định trên (Ω, ,P) Giả sử B i i, = 1 2 , , ,n một phân hoạch của Ω Giả sử ta biết phân phối của biến ngẫu nhiên X trên mỗi lớp B i
Xác suất có điều kiện của mỗi B i khi cho trước X = x , được xác định
Trang 25CHƯƠNG I QUÁ TRÌNH PHÂN LOẠI BAYES, SAI SỐ BAYES
1.1 Bài toán thực tế
Bài toán (tài liệu [9]) Một nhà máy đóng gói muốn tự động hóa quá trình phân loại cá
trên một băng chuyền theo từng loại cá Giả sử trên băng chuyền chỉ có hai loại cá: cá trích và cá hồi Ta có thể phân loại hai loại cá này với nhau qua các đặc điểm: chiều dài, chiều rộng, hình dạng, hình dạng và chiều dài vây, vị trí miệng… Ta cũng cần chú
ý đến các yếu tố gây nhiễu, ảnh hưởng trong quá trình nhận diện hình ảnh như ánh sáng, vị trí của cá trên băng chuyền… Ta giả thiết rằng thực sự có sự khác nhau giữa
hai loại cá này và ta sẽ xây dựng mô hình toán học để mô tả sự khác nhau này
Quá trình phân loại được thực hiện như sau
i Đầu tiên máy ảnh sẽ chụp hình mẫu cá
ii Lấy độ đo: Xử lý các hình ảnh đơn giản đi, sao cho không làm mất các thuộc tính mà ta cần xét để phân loại Trên mỗi con cá, lấy giá trị của các thuộc tính cần xét
đó Thuộc tính của mỗi con cá (nói chính xác là giá trị của mỗi thuộc tính) sẽ là thông tin để từ đó, phân loại chúng theo loài
iii Đưa ra quyết định phân loại
Ở đây ta đề cập đến một số vấn đề
Trích chọn thuộc tính để thực hiện được bước ii: Cho giả thiết rằng, nhìn chung, cá hồi
dài hơn cá trích Do đó, ta có thể sử dụng “chiều dài” như là một thuộc tính để phân loại giữa hai loại cá Thông qua việc xét chiều dài của các loại cá này trên nhiều mẫu
thử, ta sẽ xác định một biên của phân loại ( hay giá trị phân biệt) l* để phân loại cá Nếu một con cá có chiều dài l lớn hơn biên của phân loại l*, ta sẽ phân loại nó vào loại
cá hồi và ngược lại
Trang 26Hình 1
Để cho việc phân loại chính xác hơn, tương tự, người ta lại xem xét thêm một thuộc tính nữa là độ sáng của vảy giữa hai loại cá
Hình 2
Phân loại sai Trong quá trình phân loại như vậy, có hai khả năng phân loại sai là phân
loại sai cá hồi vào loại cá trích và ngược lại Với mỗi trường hợp phân loại sai, ta có khái niệm “giá của phân loại sai” tương ứng Mục đích của bài toán phân loại là xây dựng một quy tắc phân loại sao cho tổng giá phân loại sai là nhỏ nhất có thể Thông thường giá của phân loại sai trong các trường hợp có tính đối xứng, nhưng cũng có một vài trường hợp không phải như thế Ví dụ, giả sử theo khẩu vị của số đông, cá hồi được
ưa chuộng hơn cá trích Người mua cá trích có thể dễ dàng chấp nhận nếu thấy có vài con cá hồi trong giỏ của mình, nhưng ngược lại thì không Để không làm mất lòng người mua, nhà đóng gói cá sẽ hạn chế (đến mức có thể) số lượng cá trích trong phân
Trang 27loại cá hồi Thực hiện việc này, họ có thể phải thay đổi biên của phân loại (trong trường hợp này, người ta có thể giảm giá trị l*) Càng nhiều người mua cá trích, giá phân loại sai cá trích trong khi nó thực sự là cá hồi càng cao, biên phân loại l* càng
thấp
Như vậy, mục đích của bài toán phân loại là xây dựng một quy tắc phân loại (nghĩa là,
xác định giá trị biên phân loại) sao cho tổng giá phân loại sai là càng nhỏ càng tốt
Xây dựng mô hình toán học
Trên mỗi con cá, ta quan tâm đến hai đặc điểm để phân loại là x - 1 chiều dài; x - 2 độ sáng của vảy cá Khi đó, mỗi con cá được biểu diễn tương ứng một vector x=( ,x x1 2)Ttrong không gian hai chiều
Hình 3
Ta xác định biên phân loại để phân chia không gian cần xét thành hai miền: một miền
để phân loại cá hồi, một miền là cá trích Nhìn vào hình 3, nếu vector x=( ,x x1 2)Tthuộc miền bên trái thì ta phân loại nó vào nhóm cá hồi và ngược lại
1.2 Phân loại một phần tử vào một trong hai tổng thể
1.2.1 Quá trình phân loại Bayes, sai số Bayes
Bài toán tổng quát
Xét không gian mẫu Ω Giả sử Ω Ω ⊂ Ω sao cho 1, 2 Ω ∩ Ω = ∅ , 1 2 Ω ∪ Ω = Ω1 2
Trang 28Ánh xạ thuộc tính : p
Với mỗi phần tử thuộc không gian mẫu Ω, ta thực hiện một phép đo T, hay còn gọi là
ánh xạ thuộc tính T Với mỗi phần tử ω∈Ω, ta xác định
Với mỗi cách phân loại R(R R1, 2), ta chia làm 2 miền p R và 1 R2
Nếu xT( )w , thì ta phân loại R1 ωvào tổng thể Ω 1
Nếu xT( )w , thì ta phân loại R2 ωvào tổng thể Ω 2
Trong quá trình phân loại, có thể xảy ra trường hợp: phân loại ωvào Ω trong khi nó 2thực sự thuộc vào Ω1, hoặc ngược lại, phân loại ω vào Ω1 trong khi nó thực sự thuộc vào Ω T2 a gọi hai trường hợp đó là phân loại sai
Mục tiêu đặt ra là chọn hai miền R và 1 R 2 như thế nào để cực tiểu xác suất phân loại sai, hay đặc biệt hơn là cực tiểu trung bình sự ảnh hưởng của việc phân loại sai
Trang 29Với cách phân loạiR(R R1, 2), ta có
Xác suất phân loại đúng phần tử vào Ω là 1
Với các giá trị ( | )C i j , q , i f x i( ) cho trước, giá trị ECM phụ thuộc cách phân loại R
chia không gian đo thành hai miền R và 1 R 2
Định nghĩa 1.2.1.2
Cách phân loại R cực tiểu hóa kỳ vọng giá phân loại sai ECM thì R được gọi là cách
phân loại Bayes Khi ( | ) 1, C i j = i ≠ , giá trị nhỏ nhất của ECM được gọi là sai số j
Bayes
Trang 301.2.2 Phương pháp phân loại Bayes trong trường hợp biết xác suất tiên nghiệm của hai tổng thể
Ý tưởng xây dựng phương pháp
Xét trường hợp giá phân loại sai (1| 2)C =C(2 |1) 1=
Kỳ vọng giá phân loại sai
cũng chính là xác suất phân loại sai Do đó, trong trường hợp này, “cực tiểu hóa ECM”
cũng chính là “cực tiểu hóa xác suất phân loại sai” Với phần tử ωcho trước, ta cực tiểu hóa xác suất phân loại sai bằng cách phân loại ω vào tổng thể có xác suất (có điều kiện) lớn hơn
Xác suất có điều kiện của một phần tử ωcho trước, thuộc tổng thể ,Ωi i=1, 2
Nếu P(1| )x P( 2| )x thì ta phân loại ω vào tổng thể 1
Nếu P(1| )x P( 2| )x thì ta phân loại ω vào tổng thể 2
Nếu P(1| )x P( 2| )x thì phần tử ω được phân loại vào tổng thể nào cũng được, do đó ta phân loại tùy ý vào 1
Trang 31Cho q , 1 q 2 là hằng số không âm, f x ,1( ) f x 2( ) là hàm số không âm, x=T( )ω Nếu
Hơn nữa, nếu P( {ω:q f T1 1( ( ))ω =q f T2 2( ( ))ω } ω∈Ω =i) 0 với i1, 2 thì cách chọn
hai miền R và 1 R 2 để cực tiểu
1 1( ) 2 2( )
q ∫ f x dx+q ∫ f x dx là duy nhất, trừ tập có độ đo xác suất không
Trang 32Cách chọn hai miền R R1, 2để cực tiểu
giá phân loại sai một phần tử vào thuộc trong khi nó thực sự thuộc 2 và ngược 1
lại Khi đó, với R và 1 R 2 là hai tập con của thỏa: n
Theo Định lý 1.2.2.1, với C(2 |1)q , 1 C(1| 2)q 2 là hằng số không âm, f x ,1( ) f x là 2( )
hàm số không âm, ta chọn hai miền R và 1 R2như sau
Trang 342 Cách phân loại R gọi là có thể chấp nhận được nếu không có cách phân loại
Trong trường hợp, khi phân loại, nếu không biết xác suất tiên nghiệm để một
phần tử bất kỳ thuộc vào hai tổng thể đã cho, thì ta sẽ tìm tập lớp các cách phân loại có
thể chấp nhận được, rồi chứng minh cách phân loại có thể chấp nhận được là cách phân loại Bayes thông qua các định lý dưới đây
Định lý 1.2.3.1 Với P{f T2( ( ))ω =0 |Ω =1} 0, P{f T1( ( ))ω =0 |Ω =2} 0, cách phân
loại Bayes là cách phân loại có thể chấp nhận được
Chứng minh
Giả sử R=( ,R R1 2) là một cách phân loại Bayes tương ứng với q ,1 q 2 cho trước
Để chứng minh cách phân loại R là cách phân loại có thể chấp nhận được, ta chứng
minh không có cách phân loại nào tốt hơn R, hay với mọi cách phân loại *
R , R* không tốt hơn R , nghĩa là
R = R R , do R=( ,R R1 2) là một cách phân loại Bayes,
theo định nghĩa của ECM, ta có
Trang 35Khi đó, q2 =1 và r(2, )R ≤r(2,R*)(được suy ra từ (7))
Với q1= , 0 q2 = : 1 R=( ,R R1 2) là cách phân loại Bayes thì
Trường hợp q1 =1,q2 =0, chứng minh tương tự trên
Vậy định lý được chứng minh
Trang 36Do đó, với q 1 bất kỳ thì cách phân loại Bayes là duy nhất (theo Định lý 1.2.2.1) Hơn
nữa, hàm phân phối của 1
2
( )( )
f x
f x trên mỗi tổng thể Ω và 1 Ω2là liên tục
Giả sử R là một cách phân loại có thể chấp nhận Khi đó tồn tại một giá trị k (do hàm
phân phối của 1
2
( )( )
f x
f x trên mỗi tổng thể Ω và 1 Ω2là liên tục) sao cho
1
1 2
q = , nghĩa là 1
11
q k
=+ ,
1 2
Trang 37Tuy nhiên theo Định lý 1.2.3.1,
1.3 Phân loại một phần tử vào một trong m tổng thể, m>2
1.3.1 Phân loại Bayes, sai số Bayes trong trường hợp phân loại vào m tổng thể,
m>2
Bài toán tổng quát: Phân loại một phần tử ω vào một trong nhiều tổng thể Ω1, ,Ω mXét ảnh của ω qua ánh xạ thuộc tính (phép đo) T: x=T( )ω
Một cách phân loại, ký hiệu R= (R1 , ,R m), là sự phân chia không gian độ đo thành m
miền R1, ,R m sao cho: Nếu phần tử ω mà x=T( )ω thuộc vàoR i thì ta phân loại ω
vào tổng thể Ω , i i∈{1, ,m}
Yêu cầu đặt ra là xây dựng quá trình phân loại (chọn m miền R1, ,R ) m như thế nào để
kỳ vọng giá phân loại sai là bé nhất
q q lần lượt là xác suất tiên nghiệm của các tổng thể Ω1, ,Ω m
Với mỗi cách phân loại R(R1, ,R m), ta có
Trang 38C i j = i ≠ , giá trị nhỏ nhất của ECM được gọi là sai số Bayes j
1.3.2 Phương pháp Bayes trong trường hợp biết xác suất tiên nghiệm của các tổng thể
Ý tưởng xây dựng phương pháp
Xác suất có điều kiện của một phần tử ωcho trước, thuộc tổng thể Ω ,i i1, 2, ,m là
( )
( | )( )
m
i i m i
i j k k k
q f x
Trang 39j =k thì ta sẽ phân loại phần tử đó vào tổng thể Ω k
Từ ý tưởng trên, ta có định lý dưới đây
Định lý 1.3.2.1
Cho m tổng thể Ω i có hàm mật độ xác suất (có điều kiện) tương ứng là ( ) f x , i
1, ,
i = m Giả sử q i là xác suất tiên nghiệm của tổng thể Ω , i i=1, ,m C j i là giá ( | )
phân loại sai một phần tử của tổng thể Ω , j trong khi nó thực sự thuộc vào tổng thể Ω , i
Hơn nữa, nếu xác suất các ω thỏa (3) , với điều kiện ω∈Ω i với mỗi i, với mỗi j và k ,
b ằng 0 thì cách phân loại để cực tiểu hóa ECM (cách phân loại Bayes) là duy nhất trừ tập có xác suất bằng 0
Chứng minh
Trang 40h x dx h x R dx
=
=
Với quá trình Bayes *
R mô tả trong định lý, ( | )h x R là ( | *) min ( )i
1.3.3 Trường hợp phân loại khi xác suất tiên nghiệm không được cho trước
Trong trường hợp này, ta không thể xác định được ECM cho quá trình phân loại Tuy
nhiên, ta có thể xác định kỳ vọng giá phân loại sai (có điều kiện) của một phần tử đến