Xét một biến ngẫu nhiên X xác định trên một quần thể X có thể lấyngay là không gian giá trị của biến ngẫu nhiên X.. 1.1 Một số khái niệm cơ bản về biến ngẫu nhiên 1.1.1 Biến ngẫu nhiên Đ
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
HUỲNH THỊ NGỌC LOAN
PHÂN TÍCH NHẬN DẠNG VỚI MỘT SỐ HỮU HẠN QUẦN THỂ
Chuyên ngành: Lý Thuyết Xác Suất Và Thống Kê Toán Học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Nguyễn Bác Văn
THÀNH PHỐ HỒ CHÍ MINH – 2011
Trang 2Lời đầu tiên, tôi xin trân trọng kính gởi đến Thầy Nguyễn Bác Văn, người đã
tận tình giảng dạy, giúp đỡ và hướng dẫn tôi trong suốt quá trình thực hiện luận văn này, lòng biết ơn chân thành và sâu sắc nhất
Xin bày tỏ lòng biết ơn đối với Quý Thầy, Cô trong và ngoài Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh đã tận tình giảng dạy, truyền đạt kiến thức trong suốt thời gian tôi học tập tại trường
Xin trân trọng cảm ơn Quý Thầy, Cô thuộc Phòng Sau Đại học và Khoa Toán Tin học Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh đã tạo mọi điều kiện thuận lợi cho tôi về thủ tục hành chính trong toàn khóa học
Xin chân thành cảm ơn Ban Giám Hiệu Trường TCKT&NV Nam Sài Gòn
đã tạo điều kiện thuận lợi mọi mặt để tôi có thể yên tâm học tập và làm việc
Xin chân thành cảm ơn tập thể giáo viên khoa Khoa Học Tự Nhiên Trường TCKT&NV Nam Sài Gòn; Các bạn học viên lớp Cao học Xác Suất Thống Kê khóa
18 đã luôn động viên và nhiệt tình giúp đỡ tôi trong suốt quá trình học
Sau cùng, xin gởi đến gia đình tôi tất cả những tình cảm yêu thương, lòng biết ơn, nơi đã cho tôi niềm tin và sức mạnh để tôi học tập và hoàn thành luận văn này
Vì kiến thức bản thân còn nhiều hạn chế nên luận văn khó tránh khỏi những thiếu sót, rất mong được sự chỉ bảo của Quý Thầy, Cô và sự góp ý chân thành của các bạn đồng nghiệp
TP.HCM, ngày 15 tháng 6 năm 2011
Huỳnh Thị Ngọc Loan
Trang 3Xét một biến ngẫu nhiên X xác định trên một quần thể X có thể lấyngay là không gian giá trị của biến ngẫu nhiên X Nhưng phân phối của
X trên X lại chưa biết Chỉ biết rằng phân phối đó có thể là một trong
g phân phối P1, , Pg trên X Bây giờ ta có một quan trắc thống kê x
về X, x ∈ X Bài toán đặt ra là, từ dữ liệu x hãy phán đoán xem phânphối chưa biết của X là phân phối nào trong số P1, , Pg Phán đoán vềphân phối chưa biết của X gọi là nhận dạng thống kê, cũng gọi là phântích phân biệt
Bài toán nhận dạng lần đầu tiên được đưa ra bởi Fisher (1936) giải quyếtcho trường hợp hai quần thể với hàm phân biệt tuyến tính Fisher Hàmphân biệt này chỉ được thiết lập khi ma trận hiệp phương sai của haiquần thể bằng nhau Năm 1948, Rao đã mở rộng cho trường hợp nhiềuhơn hai quần thể, và cũng trên cơ sở giả thiết ma trận hiệp phương saicủa các quần thể bằng nhau Đến năm 1975, Kendall đưa ra phươngpháp thống kê thứ tự, nhưng đây chỉ là phương pháp mang tính chấtthủ công, rất phức tạp và hầu như không thể thực hiện được trong thựctế
Nhờ sự hỗ trợ của máy tính, Andrews (1972) [4], Chen Kittler (1973) [8],Devijer và Kittler (1982) [11], Fukunaga (1990) [19], đã tổng kết những
3
Trang 4kết quả đạt được của bài toán nhận dạng, đồng thời mở ra nhiều hướngnghiên cứu mới cho bài toán nhận dạng Họ đã dùng phương pháp Bayesđưa ra nhiều tiêu chuẩn nhận dạng mới như tiêu chuẩn về phần tử lâncận gần nhất, tiêu chuẩn về độ mạo hiểm trong phân loại, tiêu chuẩnNeyman-Pearson Hàm phân biệt tuyến tính, hàm phân biệt bậc hai
đã được nêu ra từ các tiêu chuẩn này Ở đây xác suất sai lầm trong nhậndạng đã được xem xét
Phương pháp Bayes gán cho mỗi phân phối có thể lựa chọn P1, , Pgmột xác suất tiên nghiệm q1, , qg(q1 + · · · + qg = 1) Từ đó tìm ra xácsuất hậu nghiệm với điều kiện dữ liệu là x, để rút ra phương pháp phánđoán phân phối chưa biết của X Đây là phương pháp giải quyết đượcyêu cầu của bài toán đồng thời tính được xác suất sai lầm của phân loại.Bởi những ưu điểm vượt trội của phương pháp Bayes, luận văn này trìnhbày cơ sở lý luận và một ứng dụng quan trọng của việc dùng phươngpháp Bayes để giải bài toán nhận dạng
Trang 51 KIẾN THỨC CHUẨN BỊ 5
1.1 Một số khái niệm cơ bản về biến ngẫu nhiên 5
1.1.1 Biến ngẫu nhiên 5
1.1.2 Phân phối giá trị của một biến ngẫu nhiên trên một quần thể 6
1.1.3 Quan trắc giá trị của một biến ngẫu nhiên 7
1.1.4 Không gian xác suất của một họ biến ngẫu nhiên 8 1.2 Độ đo và tích phân, lấy điều kiện 9
1.2.1 Những khái niệm về độ đo và tích phân 9
1.2.2 Những khái niệm về lấy điều kiện 13
1.3 Mô hình thống kê Bayes 20
1.3.1 Mô hình thống kê Bayes 20
1.3.2 Phân phối hậu nghiệm 21
1.4 Vài kết quả cơ bản dùng trong bài toán nhận dạng 23
2 BÀI TOÁN NHẬN DẠNG 27 2.1 Đặt bài toán nhận dạng 27
2.2 Phương pháp cổ điển của Fisher 28
1
Trang 62.3 Nhận dạng thống kê theo quan điểm Bayes 28
2.3.1 Sai lầm trong phán đoán 29
2.3.2 Tổn thất khi phân loại 34
3 ỨNG DỤNG 37 3.1 Mô hình toán học của dự báo 37
3.2 Phân tích phân biệt có tham số 39
3.2.1 Biểu thức các giá trị mẫu của các tham cấp một và cấp hai 40
3.2.2 Biểu thị ma trận tương quan theo ma trận hiệp phương sai 42
3.3 Thực hành sơ đồ có tham số 46
3.4 Thông tin tiên nghiệm trong vectơ dấu hiệu 47
3.5 Kiểm định giả thiết các ma trận hiệp phương sai bằng nhau 51 3.6 Kiểm định tính độc lập của các dấu hiệu 52
3.7 Phân tích phân biệt phi tham số 53
3.7.1 Phương pháp điểm gần nhất 54
3.7.2 Phương pháp Fix-Hodges 55
3.7.3 Phương pháp khoảng cách trung bình 56
3.7.4 Phương pháp đại diện 57
3.7.5 Biến đổi các dấu hiệu trước khi phân tích 57
3.8 Thực hiện sơ đồ phi tham số 60
Trang 7KIẾN THỨC CHUẨN BỊ
Trong chương này, chúng tôi sẽ trình bày một số phương tiện toán cơbản làm công cụ khi giải bài toán nhận dạng (hay bài toán phân biệt)
1.1 Một số khái niệm cơ bản về biến ngẫu nhiên
1.1.1 Biến ngẫu nhiên
Định nghĩa 1.1.1 (Biến ngẫu nhiên) Biến ngẫu nhiên X là một hàm
đo được xác định trên một không gian xác suất (Ω, A, P ) vào một khônggian đo được (X, B) nào đó, không gian đo được này gọi là không giangiá trị của biến ngẫu nhiên X
X : Ω → X
ω → X(ω)
X−1(B) ⊂ A
5
Trang 8Đặc biệt, biến số ngẫu nhiên X là ánh xạ đo được
Xét một quần thể Ω gồm những phần tử (hay cá thể) ω Biến ngẫu nhiên
ξ là một đặc trưng của cá thể Mỗi cá thể ω mang một giá trị của đặctrưng ξ, các giá trị này thuộc tập X, tập các giá trị có thể của ξ Vậy ξđúng là ánh xạ ξ : Ω → X
Trường hợp quần thể Ω hữu hạn, có N phần tử.
Phân phối giá trị của ξ trên quần thể Ω diễn tả như sau: S là tập con bất
kỳ của X, tỷ số số cá thể có đặc trưng ξ∈Ssố tất cả các cá thể = ]{ω:ξ(ω)∈S}N được viết là P (ξ ∈ S).Lúc này, Ω hữu hạn, ta đã dùng một độ đo cơ sở đồng đều trên Ω, tức
ta không phân biệt giữa các cá thể, mỗi cá thể ω đều có độ đo N1
Trường hợp quần thể Ω vô hạn.
Ta phải lấy bộ phận hữu hạn ΩN (có N cá thể) của Ω, lập phân phối
PN(ξ ∈ S) của ξ trên ΩN như trên, rồi cho N tăng vô hạn, giới hạn của
PN(ξ ∈ S) sẽ cho biết phân phối giá trị của ξ trên quần thể vô hạn Ω.Chẳng hạn, khi nói tầm cao ξ của một tập thanh niên là gần chuẩn (nóiđúng là xấp xỉ chuẩn) ta hiểu là ]{ω:ξ(ω)∈S}]Ω ≈ Φ(S), với Φ là phân phốichuẩn Ở đây Ω là tập các thanh niên, ω là một thanh niên cụ thể
Trang 91.1.3 Quan trắc giá trị của một biến ngẫu nhiên
Trường hợp quần thể Ω hữu hạn
Quan trắc giá trị của biến ngẫu nhiên ξ xác định trên Ω tức là rút ngẫunhiên một cá thể ω0 từ Ω, ghi giá trị ξ1 của đặc trưng ξ ứng với cá thể
đó Rút ngẫu nhiên, tức đảm bảo mọi cá thể được rút với cùng khả năng(là N1) Giá trị quan trắc ξ1 là biến ngẫu nhiên, vì cá thể ω0 được rútngẫu nhiên
Ta tính phân phối của ξ1 Lấy tập bất kỳ S ⊂ X ( tập giá trị của ξ), gọi{ω : ξ(ω) ∈ S} = {ω1, , ωs} Lúc đó
Xác suất (ξ1 ∈ S) = xác suất [cá thể được rút ω0 thuộc {ω : ξ(ω) ∈ S}]
= xác suất [(ω0 = ω1) ∪ ∪ (ω0 = ωs)]
= s 1N
Trang 10Trường hợp quần thể Ω vô hạn
Quan trắc về ξ vẫn là phép thử rút ngẫu nhiên một cá thể ω0 Nhưngrút ngẫu nhiên ω0 bây giờ hiểu là xác suất (ω0 ∈ A) = P A, với P là một
độ đo xác suất có sẵn trên (Ω, A) Nếu cá thể ω0 được rút, thì quan trắc
ξ1 chính là ξ(ω0), quan trắc ξ1 cùng phân phối như ξ, vì phân phối củaξ(ω) được định nghĩa từ độ đo cơ sở P trên (Ω, A), mà ω0 và ω có cùngphân phối P, nên ξ1 = ξ(ω0) và ξ(ω) có cùng phân phối
n quan trắc là ξ(ω1), , ξ(ωn), với ωi là cá thể được rút lần thứ i từ
Ω theo luật cơ sở P, chúng cùng phân phối vì ω1, , ωn có cùng phânphối P, chúng độc lập vì các phép thử lặp nên phải độc lập, thành thử
ω1, , ωn độc lập
Vậy quan trắc về một biến ngẫu nhiên là một biến ngẫu nhiên có cùngphân phối như biến ngẫu nhiên ban đầu và n lần quan trắc về một biếnngẫu nhiên lại cho n biến ngẫu nhiên độc lập và cùng phân phối
1.1.4 Không gian xác suất của một họ biến ngẫu nhiên
Để xét các biến ngẫu nhiên khác nhau trong cùng một hiện tượng, ta coichúng là những hàm trên một không gian xác suất cơ sở chung (Ω, A, P ).Nhưng sau khi đã xác định họ tất cả các biến ngẫu nhiên phải xét, e.g(Xu, u ∈ U ) = X, ta sẽ dùng không gian giá trị của X là X, một σ - đại
số thích hợp B trong X và phân phối xác suất PX của biến X Lúc đó(X, B, PX) gọi là không gian xác suất mẫu của họ X Chẳng hạn, nghiêncứu tầm cao X của thanh niên trên một quần thể, ta có thể không dùngkhông gian Ω gồm các cá thể người của quần thể, mà dùng không gian
Trang 11xác suất mẫu (X, B, PX), ở đây X = R1, B = B1, PX là phân phối củatầm cao trên (R1, B1), lúc này với phần tử x ∈ X, ta có X(x) = x.
1.2 Độ đo và tích phân, lấy điều kiện
1.2.1 Những khái niệm về độ đo và tích phân
Xét không gian đo (X, A,µ) là bộ ba trong đó X là một tập tùy ý, A làmột σ− đại số các tập con của X, µ là độ đo định nghĩa trên A
Đạo hàm Radon - Nicodym
Định nghĩa 1.2.1 Hàm tập ϕ là hàm số được định nghĩa trên một lớpkhông rỗng C các tập con của không gian X bằng cách cho ứng với mỗi tập
A ∈ C một số hữu hạn hay vô hạn ϕ(A), tức là, ϕ : C → [−∞; +∞], với[−∞; +∞] = (−∞; +∞) ∪ {−∞} ∪ {+∞}, khoảng (−∞; +∞) là đườngthẳng thực R, tập {−∞} chỉ chứa số vô hạn âm −∞ và tập {+∞} chỉchứa số vô hạn dương +∞
Định nghĩa 1.2.2 Hàm tập ϕ được gọi là σ− cộng tính nếu thỏa đẳngthức ϕ(∪Aj) =P ϕ(Aj) với mỗi lớp đếm được các tập rời nhau Aj ∈ C
Để cố định định nghĩa và để đảm bảo tổng P ϕ(Aj) tồn tại, ta sẽ loại
bỏ giá trị −∞, tức là luôn luôn xem ϕ > −∞
Định nghĩa 1.2.3 Xét không gian đo (X, A,µ), nếu một tập A ∈ A thỏaµ(A) = 0 thì tập A được gọi là tập µ − không Các mối quan hệ có giátrị ngoài tập µ − không gọi là mối quan hệ có giá trị hầu khắp nơi đốivới độ đo µ
Viết tắt: µ − a.e hay a.e
Trang 12Xét tập các hàm từ không gian X vào không gian X0 Hai hàm X,Y đượcgọi là µ − tương đương nếu X(ω) = Y (ω) µ − a.e với ω ∈ X.
Khái niệm này mang các tính chất thông thường của quan hệ tươngđương (phản xạ, bắc cầu, đối xứng) nên có thể nói tập hợp các hàmđược chia thành các lớp tương đương
Định nghĩa 1.2.4 Hàm tập ϕ trên A được gọi là µ − liên tục tuyệt đốinếu
µ(A) = 0 ⇒ ϕ(A) = 0, (A ∈ A)
Ký hiệu: ϕ µ
Định nghĩa 1.2.5 Xét không gian đo (X, A,µ) và hàm đo được
f : (X, A) → (R, B), tức là f−1(B) ⊂ A (B là σ− đại số các tập Boreltrên R) và giả sử RXf dµ tồn tại Thì hàm ϕ(A) = RAf dµ với A ∈ A là
Trang 13hàm tập σ− cộng tính trên A, tích phân này được gọi là tích phân bấtđịnh của f
Định lý 1.2.1 (định lý Radon-Nicodym) Nếu trên σ− đại số A củakhông gian đo (X, A,µ), độ đo µ và hàm tập σ−cộng tính ϕ là σ− hữuhạn và ϕ µ thì ϕ là tích phân bất định của một hàm đo được hữu hạn
f xác định sai khác µ− tương đương trên (X, A,µ), tức là
∀A ∈ A : ϕ(A) =
Z
A
f dµ (1.1)Định nghĩa 1.2.6 Hàm đo được f : (X, A) → (R, B), xác định sai khácµ− tương đương bởi công thức (1.1), được gọi là đạo hàm Radon-Nicodym
Công thức chuyển tích phân
Định nghĩa 1.2.7 Xét hai không gian đo (X, A,µ) và (X0, A0,µ0) và hàm
đo được X : (X, A) → (X0, A0)
Trang 14Độ đo ảnh µX trên A0 được xác định là
µX(A0) = µ(X−1(A0)), ∀A0 ∈ A0
Định lý 1.2.2 Xét hai không gian đo (X, A,µ) và (X0, A0,µ0), hàm đođược X : (X, A) → (X0, A0) và độ đo ảnh µX trên A0 Cho hàm đo được
g : (X0, A0) → (R, B), ta có công thức chuyển không gian
Xi là ánh xạ tọa độ từ E lên Xi, i = 1, , n Tích của các σ− đại số
Ai, i = 1, , n, kí hiệu Nn
i=1Ai hay A1⊗ ⊗ An, là σ− đại số bé nhấttrên E sao cho tất cả các ánh xạ tọa độ Xi đo được
Đưa vào mỗi không gian đo (Xi, Ai) một độ đo µi , i = 1, , n Giả
sử các µi hữu hạn hay σ− hữu hạn Khi đó tồn tại duy nhất độ đotích µ trên Nn
i=1Ai sao cho µ(A1 × × An) = µ(A1) µ(An) với
Ai ∈ Ai (i = 1, , n) Ký hiệu Nn
i=1µi hay µ1 ⊗ ⊗ µn
Trang 15Định lý 1.2.3 (định lý Fubini:) Cho các không gian đo được σ− hữuhạn (Xi, Ai, µi) i = 1, , n Nếu hàm Nn
i=1Ai− đo được X trên
A n−1
X(x1, , xn)dµn−1
=
Z
A 2
dµ2Z
A 1
X(x1, , xn)dµ1
(1.4)
1.2.2 Những khái niệm về lấy điều kiện
Xét không gian xác suất cơ sở (X, A,P ) và biến ngẫu nhiên thực ξ trênkhông gian đo (X, A) Cho T : (X, A) → (Γ, C) là ánh xạ đo được, PT
là độ đo ảnh của T trên (Γ, C)
Kỳ vọng có điều kiện
Định nghĩa 1.2.9 Cho ξ là biến số ngẫu nhiên khả tích trên (X, A,P )
và hàm đo được T : (X, A) → (Γ, C), kỳ vọng có điều kiện của ξ chotrước ánh xạ T là biến số ngẫu nhiên g(T), trong đó g : (Γ, C) → (R, B)
là hàm số thực đo được xác định sai khác PT− tương đương bởi phươngtrình
Trang 16Ký hiệu g(t) là E(ξ|t) hay E(ξ|T = t), còn g(T ) là kỳ vọng có điều kiệncủa biến số ngẫu nhiên ξ cho trước hàm T.
Ký hiệu g(T ) = E(ξ|T ) hay ET(ξ)
Lưu ý, g(t) = E(ξ|t) được xác định cho tất cả t ngoài một tập PT−khôngtrong (Γ, C, PT)
Xác suất có điều kiện
Định nghĩa 1.2.10 Cho A là một biến cố trong không gian (X, A, P ),
A ∈ A, và hàm đo được T : (X, A) → (Γ, C) Xác suất có điều kiện của
A cho trước hàm T là biến số ngẫu nhiên g(T ), trong đó
g : (Γ, C) → (R, B) là hàm thực đo được xác định sai khác PT−tươngđương bởi g(T ) = E(IA|T ) với IA là hàm chỉ tiêu của biến cố A
Ký hiệu: P (A|T ) hay PTA
Khi T = t thì giá trị g(t) gọi là xác suất có điều kiện của biến cố A chotrước giá trị t của hàm T Ký hiệu P (A|t) hay (P A|T = t)
Một số tính chất của kỳ vọng có điều kiện
Xét không gian xác suất cơ sở (X, A,P ) và biến số ngẫu nhiên thực ξtrên không gian đo (X, A), T : (X, A) → (Γ, C) là ánh xạ đo được Ta có
(i) EE(ξ|T ) = Eξ (1.7)
Trang 17(ii) Cho hàm đo được h : (Γ, C) → (R, B) thỏa E|h(T )| < ∞
thì Eh(T )|T = h(T ) PT − as (1.8)(iii) Cho Y,Z là các hàm đo được với Y : (X, A) → (Y, E ),
Z : (X, A) → (Z, F )
Thì E ξ|Y = EE(Y,Z)ξ|Y = EEYξ|(Y, Z) P − as (1.9)
Phân phối xác suất có điều kiện của một biến ngẫu nhiên
Định lý 1.2.4 Cho không gian Borel (X, A) ((X) là tích của một sốhữu hạn hay đếm được đường thẳng và A là σ− đại số các tập Boreltrong X )và không gian xác suất cơ sở được lấy là (X, A,P ), ánh xạ đođược T : (X, A) → (Γ, C) và độ đo ảnh PT trên C Khi đó tồn tại hàm
g : (A × Γ) → R
(i) Với mỗi tập cố định A ∈ A, g(A, t) : (Γ, C) → (R, B) là hàm số đođược của t trên Γ
(ii) Mỗi t ∈ Γ cố định, hàm g(A, t) là độ đo xác suất trên A
(iii) (∀A ∈ A),RCg(A, t)dPT(t) = P (A ∩ T−1(C)) (∀C ∈ C)
Định nghĩa 1.2.11 Trong định lý trên nếu thay độ đo P bằng độ đoảnh PX của biến ngẫu nhiên X nhận giá trị trong X thỏa
PX(A) = P (X ∈ A), ∀A ∈ A, và lấy không gian gốc là (X, A, PX), thìhàm g(A, t) thỏa các tính chất (i),(ii) và (iii) trên, gọi là phân phối xácsuất có điều kiện của biến ngẫu nhiên X cho trước giá trị t của hàm T
Ký hiệu: PX(.|t) hay PX(.|T = t) hay P(X|t)(.)
Trang 18Phân phối xác suất có điều kiện của hai biến ngẫu nhiên
Xét không gian đo (X, A) với X= Y × Z, A = E ⊗ F trong đó E , F
lần lượt là các σ− đại số trên Y, Z Xét ánh xạ T : X → Z thỏa
(∀x = (y, z) ∈ X) T (x) = z thì T (X) = Z Giả sử (Y, E ) và (Z, F ) là
các không gian Borel Cho z ∈ Z, ta gọi X(z) = {x : x ∈ X, T (x) = z} là
tập các điểm x mà tọa độ thứ hai là z, ta cũng có X(z) = Y × {z}
Cho bất kì tập A ∈ A, A ∩ X(z) là tập các điểm x trong A mà tọa độ thứ
hai là z, do đó A ∩ X(z) = Az× {z} với Az là thiết diện của A tại z, tức
là
Az = {y : y ∈ Y, (y, z) ∈ A} ⊂ Y (1.10)Xét không gian xác suất cơ sở (X, A,P ) với P = PX− độ đo ảnh của
biến ngẫu nhiên X lấy giá trị trong X, X = (Y, Z) với Y và Z lần lượt là
các biến ngẫu nhiên lấy giá trị trong (Y, E ) và (Z, F ) Ta có T (X) = Z
nên có thể viết Z thay cho T Độ đo PX|z(.) = PX(.|Z = z) được định
nghĩa trên σ− đại số
Định nghĩa 1.2.12 Cho (Y, E ) và (Z, F ) là các không gian Borel, X = (Y, Z)
là biến ngẫu nhiên nhận giá trị trong (Y × Z, E ⊗ F ) với phân phối
Trang 19PX = P(Y,Z) trên E ⊗ F , miền giá trị của Z là Z Độ đo xác suất
PY |Z=z(.) xác định trên σ− đại số E bởi đẳng thức
(∀B ∈ E )PY |Z=z(B) = P(Y,Z)(B × {z}|Z = z) = PX|z(B × {z}) (1.13)với z ∈ Z, độ đo này được gọi là phân phối xác suất có điều kiện của Ykhi đã biết Z = z
Định lý 1.2.5 Cho (Y, E ) và (Z, F ) là các không gian Borel, X = (Y, Z)
là biến ngẫu nhiên nhận giá trị trong (Y × Z, E ⊗ F ) với phân phối
P(X) = P(Y,Z) trên E ⊗ F , miền giá trị của Z là Z Khi đó tồn tại mộtlớp các độ đo xác suất PY |Z=z(.)(z ∈ Z), tức là phân phối xác suất cóđiều kiện trên không gian (Y, E ) của biến ngẫu nhiên Y khi cho biết
Lưu ý: Chắc chắn miền giá trị của Z là Z do X = (Y, Z) và khônggian giá trị của X là Y × Z
Định lý 1.2.6 Cho (Y, E ) và (Z, F ) là các không gian Borel, (Y, Z) làbiến ngẫu nhiên nhận giá trị trong Y × Z và (Y × Z, E ⊗ F , P(Y,Z)) đượclấy làm không gian xác suất cơ sở Khi đó phân phối đồng thời của bộ(Y, Z) xác định khi biết:
(i) Phân phối biên duyên PZ của Z
(ii) Lớp độ đo xác suất có điều kiện PY |Z=z(.) định nghĩa cho tất cả
Trang 20(∀B ∈ E ) (∀C ∈ F ) P(Y,Z)(B × C) =
Z
C
PY |Z=z(B)dPZ(z) (1.15)
Hàm mật độ xác suất có điều kiện của hai biến ngẫu nhiên
Cho không gian Borel (Y, E , µ1) và (Z, F , µ2) với µ1, µ2 là hai độ đoσ− hữu hạn, (Y, Z) là biến ngẫu nhiên nhận giá trị trong (Y ×Z, E ⊗F ).Với phân phối P(Y,Z)của bộ (Y, Z) trên E ⊗F , ta chọn (Y × Z, E ⊗ F , P(Y,Z))làm không gian xác suất cơ sở Xét phân phối biên duyên PZ của Z trên(Z, F ) và phân phối xác suất có điều kiện PY |Z=z của Y khi đã biết
Gọi N = {z : z ∈ Z, f2(z) = 0} thì PZ(N ) = 0 Bỏ qua mọi tập N
và tập PZ−không, ta có quyền xem f2(z) 6= 0 trong (1.17)
Trang 21(ii) Ngược lại, nếu PZ có mật độ f2(z) đối với µ2 và PY |Z=z có mật
độ fY |Z=z(y) đối với độ đo µ1 thì P(Y,Z) có mật độ f (y, z) đối với
µ1 ⊗ µ2 cho bởi
f (y, z) = fY |Z=z(y)f2(z) (1.18)Khi đó fY |Z=z(y) gọi là mật độ xác suất có điều kiện của Y khi đãbiết Z = z
Hàm mật độ có điều kiện của ba biến ngẫu nhiên
Cho ba không gian Borel (Y, E , µ1), (Z, F , µ2), (T , G, µ3) với µ1, µ2, µ3
là ba độ đo σ− hữu hạn X = (Y, Z, T ) là biến ngẫu nhiên nhận giá trịtrong (Y × Z × T , E ⊗ F ⊗ G)
Trên không gian giá trị của X, phân phối xác suất của X xác định bởi
độ đo xác suất P(Y,Z,T ) và trên đó ta xét độ đo µ = µ1 ⊗ µ2⊗ µ3 Giả sử
P(Y,Z,T ) µ Gọi f (y, z, t) là hàm mật độ của phân phối P(Y,Z,T ) đối với
µ Khi đó, PY (phân phối biên duyên của Y trên (Y, E )) sẽ có hàm mật
độ f1(y) đối với độ đo µ1, còn PT |Y =y ( phân phối có điều kiện của T chotrước trị Y = y trên (T , G)) ta sẽ có hàm mật độ f3(t|y) đối với độ đo µ3
và PZ|Y =y,T =t (phân phối có điều kiện của Z cho trước trị (Y, T ) = (y, t)trên (Z, F )) sẽ có hàm mật độ f2(z|t, y) đối với độ đo µ2 Ta có hệ thức:
f(y,z,t)(y) = f2(z|t, y)f3(t|y)f1(y) (1.19)Mặt khác, P(Z,T )|Y =y (phân phối có điều kiện của (Z, T ) cho trước trị
Y = y ) sẽ có hàm mật độ g(z,t|y) đối với độ đo tích µ2 ⊗ µ3 và ta có:
f (y, z, t) = g(z,t|y)f1(y) (1.20)
Trang 221.3 Mô hình thống kê Bayes
1.3.1 Mô hình thống kê Bayes
Xét mô hình thống kê (X, A, Pθ) với
• X là không gian giá trị của biến ngẫu nhiên X, dữ liệu x được xemnhư một giá trị quan trắc của X
• A là σ− đại số gồm một số các tập con của X
• Pθ là phân phối xác suất không biết của biến ngẫu nhiên X, phânphối này được xác định bởi một tham ẩn θ
• Tham θ lấy giá trị trên tập Θ
Mọi phán đoán đều được rút ra từ dữ liệu x Mà x là một thể hiện ngẫunhiên của biến X
Nhà thống kê cổ điển sẽ tính xấp xỉ xác suất để cho phán đoán đúng.Nếu xác suất đó cao thì giả định lặp đi lặp lại hoàn cảnh, tỷ số lần phánđoán đúng sẽ cao Chẳng hạn xác suất đó là 90% thì số lần phán đoán
Trang 23đúng sẽ bằng 10090 của số lần lặp lại Bởi thế những nhà thống kê cổ điểnđược gọi là thuộc trường phái tần số Đặc trưng cơ bản của quan điểmnày là coi tham ẩn θ là hằng không biết và dựa vào quan trắc ngẫu nhiên
x để mò tìm hằng θ trong biển Θ và đánh giá phán đoán dựa trên tần
số đúng toàn cục
Nhà thống kê Bayes coi đầu vào của biện pháp thống kê là dữ liệu x vàthông tin sẵn có về tham θ Dữ liệu x bao giờ cũng là số liệu cụ thể đượcxem là điều kiện Còn tham ẩn θ thì trường phái Bayes luôn xem là biếnngẫu nhiên nên thông tin sẵn có (gọi là thông tin tiên nghiệm) về θ baogiờ cũng diễn tả được bằng một phân phối xác suất gọi là phân phối tiênnghiệm Q trên không gian đo được (Θ, T ) Nhà thống kê Bayes khôngchỉ rút ra phán đoán mà chọn một hành động Vậy hành động Bayesđược xây dựng trên cơ sở điều kiện x và phân phối tiên nghiệm Q Bởithế quan điểm Bayes còn gọi là quan điểm có điều kiện Như thế môhình thống kê Bayes là mô hình (X, A, Pθ) với θ được xem là một biếnngẫu nhiên lấy giá trị trong tập Θ Trong mô hình này, mọi phân tíchđược tiến hành bởi kết hợp giữa thông tin tiên nghiệm về θ và dữ liệu xvào cái gọi là phân phối hậu nghiệm của θ cho trước giá trị x, từ phânphối này tất cả các quyết định và kết luận sẽ được rút ra
1.3.2 Phân phối hậu nghiệm
Cho θ là biến ngẫu nhiên lấy giá trị trên tập Θ và phân phối tiên nghiệm
Q của θ trên không gian đo được (Θ, T ) Giả sử trên T sẵn có một độ
đo σ− hữu hạn ν và Q ν Lúc đó, đạo hàm Random-Nicodym ddνQ làhàm mật độ của θ Đặt d
Q
dν (θ) = π(θ) thì π(θ) gọi là mật độ phân phối
Trang 24xác suất tiên nghiệm của θ.
Định nghĩa 1.3.1 Xét không gian xác suất (X, A, Pθ), X là biến ngẫunhiên nhận giá trị trên X Phân phối hậu nghiệm của θ là phân phối xácsuất có điều kiện của biến ngẫu nhiên θ cho trước trị x của biến ngẫunhiên X
Ký hiệu: Pθ(.|X = x) hay Pθ(.|x) hay Pθ|x(.), dùng định nghĩa (1.2.12)Công thức: Xét hai không gian đo (X, A, Pµ) và (Θ, T , ν) với µ và νlần lượt là các độ đo σ− hữu hạn trên A và T ; (X, θ) là biến ngẫunhiên nhận giá trị trong (X × Θ, A ⊗ T ) Giả sử θ có hàm mật độ đốivới ν là π(θ) và hàm mật độ có điều kiện của X cho trước θ đối với
µ là f (x|θ) Khi đó hàm mật độ đồng thời của (X, θ) đối với µ ⊗ ν làh(x, θ) = f (x|θ)π(θ) (theo công thức (1.18))
Mặt khác, theo (1.17) ta cũng có π(θ|x) = h(x,θ)m(x) là hàm mật độ có điềukiện của θ cho trước trị x của X, với m(x) = RΘh(x, θ)ν(dθ) theo (1.16)
là hàm mật độ biên duyên của X
Trang 251.4 Vài kết quả cơ bản dùng trong bài toán nhận
dạng
Kết quả 1
Gọi (Ω, A, P ) là không gian xác suất cơ sở X : Ω → X là một biến ngẫunhiên, P là họ các độ đo xác suất có thể của X Ta có thể lấy ngay Ω làkhông gian tích, Ω = X × P W là một biến ngẫu nhiên lấy giá trị trên
P Biến ngẫu nhiên (X, W ) lấy giá trị trên Ω = X × P
Trang bị cho X và P những σ−đại số, gọi
PX là phân phối biên duyên của X trên X
PW là phân phối biên duyên của W trên P
Lúc đó, áp dụng 1.2.7 (ii) trang 18, giả sử PX µ, µ là một độ đoσ− hữu hạn trên X; giả sử PW ν, ν là một độ đo σ− hữu hạn trên
P, ta gọi
f (x) = dPdµX(x) (hàm mật độ biên duyên của X),
fw(x) = dPX|W =wdµ (x) (hàm mật độ có điều kiện của X với điều kiện phânphối đã cho là w ∈ P)
qw(x) = dPW |X=xdν (w) (hàm mật độ hậu nghiệm của W, cho trước trị x của X)g(x, w) = dPd(µ×ν)(W,X)(x, w) (hàm mật độ đồng thời của W và X)
qw = dPdνW(w) (hàm mật độ xác suất tiên nghiệm của phân phối W trên P)Theo công thức (1.18) ta có đẳng thức
g(x, w) = f (x)qw(x) = qwfw(x)
Trang 26Từ đó
qw(x) = qwfw(x)
f (x) ( khi f (x) 6= 0) (1.24)Đây là công thức tính mật độ phân phối hậu nghiệm của W cho trướcgiá trị x của X
Gọi W là biến ngẫu nhiên có phân phối (p,1-p) trên không gian giá trị{w1, w2}, với w1 = P1, w2 = P2 Đối với độ đo σ− hữu hạn µ trên X, giả
sử phân phối Pi có hàm mật độ f (x|wi) Gọi biến cố E =phán sai, thì
Trang 27Kết quả 3
Tổng quát kết quả 2 ra trường hợp X có thể có phân phối là một trong
g phân phối P1, , Pg với khả năng đã biết q1, , qg Sử dụng quy tắc:khi có giá trị quan trắc x của X, ta xem phân phối nào có khả năng hậunghiệm trội nhất, thì ta phán rằng X có phân phối đó Chỉ rõ rằng quytắc Bayes đó thể hiện tư tưởng của phương pháp hợp lý nhất
Tưởng tượng một biến ngẫu nhiên W với không gian giá trị W = {w1, , wg},sao cho biến cố (W = wi) tương đương với biến cố "phân phối của X
là Pi(i = 1, , g) " Biến ngẫu nhiên (X, W ) có không gian giá trị là
X × W Tư tưởng của phương pháp hợp lý nhất là " cái xảy ra là cáichắc nhất, tức là cái có nhiều khả năng nhất", theo tư tưởng đó, lấytrường hợp X là biến rời rạc, x đã sẵn có, ta sẽ thiên về trị wi nào làmcho P ((X, W ) = (x, wi)) lớn nhất có thể được Nhưng, với X rời rạc, tacó
P ((X, W ) = (x, wi)) = P [(X = x) ∩ (W = wi)]
= P (X = x)P (W = wi|X = x)
= P (W = wi)P (X = x|W = wi)Khả năng hậu nghiệm của trị wi là
P (W = wi|X = x) = P (W = wi)P (X = x|W = wi)
P (X = x)
= qiPi(X = x)
P (X = x) .Bởi phân phối biên duyên P (X = x) đã định sẵn, cho nên tư tưởng hợp
lý nhất dẫn đến quy tắc Bayes
Trang 28Kết quả 4
Lấy trường hợp X là biến ngẫu nhiên rời rạc Trên không gian giá trị
X, biến ngẫu nhiên X có thể có một trong số g phân phối P1, , Pgvới khả năng đã biết q1, , qg Đặt hi(x) = qiPi(X = x) Sử dụng quytắc Bayes: khi có trị quan trắc x, ta phán X có phân phối nào với khảnăng hậu nghiệm trội nhất Hãy biểu thị xác suất phán sai theo hàm sốmax1≤i≤ghi(x)
Đặt Γi = {x : x ∈ X, hi(x) = max1≤k≤ghk(x)} Biến cố "phán sai" là
E = ∪gi=1[(W = wi) ∩ (X /∈ Γi)], ở đây W là biến ngẫu nhiên với khônggian giá trị {w1, , wg} sao cho (W = wi) ⇔ " phân phối của X là Pi".Đặt fi(x) = Pi(X = x) ( hàm mật độ của phân phối Pi theo độ đo đếm
Trang 29X trên X lại chưa biết Chỉ biết rằng phân phối đó có thể là một trong
g phân phối P1, , Pg trên X Bây giờ ta có một quan trắc thống kê x
về X, x ∈ X Bài toán đặt ra là, từ dữ liệu x hãy phán đoán xem phânphối chưa biết của X là phân phối nào trong số P1, , Pg Phán đoán vềphân phối chưa biết của X gọi là nhận dạng thống kê
27
Trang 302.2 Phương pháp cổ điển của Fisher
Phương pháp này lần đầu tiên được đưa ra bởi Fisher (1936) khi tiếnhành phân loại hoa Iris dựa trên số liệu về kích thước bên ngoài của hoa
và được ứng dụng trong nhiều lĩnh vực khác nhau Phương pháp này ápdụng cho hai quần thể và nhiều hơn hai quần thể dựa trên số liệu rờirạc Đây là phương pháp có ý nghĩa thực tế bởi thuật toán đơn giản.Hạn chế của phương pháp này là phải thực hiện trên cơ sở ma trận hiệpphương sai của các quần thể bằng nhau và không tính được xác suất sailầm của phân loại
2.3 Nhận dạng thống kê theo quan điểm Bayes
Phương pháp Bayes gán cho mỗi phân phối có thể lựa chọn P1, , Pg
một xác suất tiên nghiệm q1, , qg(q1 + · · · + qg = 1) Từ đó tìm ra xácsuất hậu nghiệm với điều kiện dữ liệu là x, để rút ra phương pháp phánđoán phân phối chưa biết của X Đây là phương pháp giải quyết đượcyêu cầu của bài toán đồng thời tính được xác suất sai lầm của phân loại
Đi từ cấu trúc thống kê (X, B, PX, P) Ở đây P là họ các phân phối cóthể của X, giả sử gồm g phần tử Ta viết P = {w1, , wg} Gọi W làbiến ngẫu nhiên rời rạc có phân phối xác suất (q1, , qg) trên P, tức là
P rob(W = wi) = qi, i = 1, , g
Phân phối (q1, , qg) gọi là phân phối xác suất tiên nghiệm của W
X là không gian giá trị của X, ta phân hoạch X = X1 ∪ ∪ Xg
Trang 31Gọi x là giá trị quan trắc thu được của biến ngẫu nhiên X Ta đưa raquy tắc nhận dạng phân phối của X như sau
x ∈ Xi(i = 1, , g) ⇐⇒ phán wi là phân phối chân thực của X
(2.1)
2.3.1 Sai lầm trong phán đoán
Theo quy tắc đưa ra, sai lầm trong nhận dạng sảy ra, khi wi là phânphối chân thực nhưng quan trắc x ∈ Xi0(i0 6= i)
Gọi Wi là biến cố wi xảy ra, tức là Wi = (W = wi)
Sai lầm trong nhận dạng là biến cố
fi(x) = dµd Pi(x), thì RX
ifi(x)dµ = P (X ∈ Xi|Wi)
Trang 32tử w trong P, tức là khi:
qw(x) = max{qw0(x), w0 ∈ P}