Trong luận văn này, chúng tôi tổng kết những phương pháp cho đến hiện tại để giải quyết bài toán phân loại và phân biệt.. Sơ lược sự phát triển và tính ứng dụng của bài toán phân loại và
Trang 1TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA H ỌC TỰ NHIÊN
B Ộ MÔN TOÁN
- -
GIÁO VIÊN HƯỚNG DẪN
ThS VÕ V ĂN TÀI
(B Ộ MÔN TOÁN – KHOA KHTN)
SINH VIÊN TH ỰC HIỆN
TR ẦN THỊ NGỌC MAI NGÀNH:TOÁN ỨNG DỤNG-K32
Trang 2Em vô cùng biết ơn quý Thầy Cô trong Khoa Khoa học tự nhiên trường Đại học
Cần Thơ đặc biệt là Thầy Cô trong Bộ môn toán đã giảng dạy, dìu dắt em trong suốt
thời gian theo học tại trường Đại học Cần Thơ
Cám ơn các bạn lớp Toán ứng dụng K32 đã động viên, giúp đỡ trong quá trình
học tập và thực hiện đề tài
Cuối cùng xin bày tỏ lòng biết ơn đặc biệt đến gia đình, những người đã luôn ở bên cạnh, giúp đỡ, động viên và tạo mọi điều kiện thuận lợi cho em vượt qua những khó khăn trong quá trình học tập và thực hiện luận văn tốt nghiệp này
Mặc dù đã cố gắng hết sức, nhưng do trình độ còn hạn chế, luận văn không tránh khỏi sai sót Kính mong sự góp ý của quý Thầy Cô và các bạn để luận văn được hoàn thiện hơn
Cần Thơ, tháng 5 năm 2010
Tr ần Thị Ngọc Mai
Trang 3M ỤC LỤC
Chương 1 PHƯƠNG PHÁP THỐNG KÊ THỨ TỰ
VÀ PHƯƠNG PHÁP FISHER 4
1.1 Phương pháp thống kê thứ tự 4
1.1.1 Thuật toán 4
1.1.2 Ví dụ 5
1.2 Phương pháp Fisher 10
1.2.1 Phương pháp 10
1.2.2 Ví dụ 13
Chương 2 PHƯƠNG PHÁP BAYES 16
2.1 Hàm mật độ xác suất … 16
2.1.1 Định nghĩa 16
2.1.2 Phân phối chuẩn 16
2.1.3 Ước lượng hàm mật độ xác suất 17
2.2 Tính gần đúng tích phân … 21
2.2.1 Phương pháp truyền thống … 21
2.2.2 Phương pháp Monte Carlo … 22
2.3 Phân loại và phân biệt cho hai tổng thể … 24
2.3.1 Nguyên tắc phân loại … 24
2.3.2 Sai số Bayes … 27
2.4 Phân loại và phân biệt cho nhiều tổng thể … 28
2.4.1 Nguyên tắc phân loại … 28
2.4.2 Sai số Bayes … 28
2.5 Ví dụ … 30
2.5.1 Trường hợp 1 … 30
2.5.2 Trường hợp 2 … 32
Chương 3 PHƯƠNG PHÁP HÀM CỰC ĐẠI 37
3.1 Giới thiệu … 37
3.2 Hàm cực đại trong bài toán phân loại và phân biệt … 37
3.2.1 Nguyên tắc phân loại phần tử mới … 37
3.2.2 Vấn đề xác định hàm cực đại trong các hàm mật độ xác suất … 38
Trang 43.2.3 Sai số Bayes trong phương pháp hàm cực đại… 43
3.3 Sử dụng phần mềm toán học trong bài toán phân loại và phân biệt… 45
3.3.1 Chương trình tính tích phân… 45
3.3.2 Chương trình phân loại phần tử mới… 47
3.3.3 Chương trình tìm hàm cực đại và tính sai số Bayes… 48
K ẾT LUẬN 52
TÀI LI ỆU THAM KHẢO 54
Trang 5DANH M ỤC CÁC HÌNH
STT TÊN HÌNH N ỘI DUNG TRANG
1 Hình 3.1 Đồ thị của bảy hàm mật độ xác suất một chiều,
f max( )x và g max( )x 51
2 Hình 3.2 Đồ thị của ba hàm mật độ xác suất hai chiều 53
Trang 6DANH MỤC CÁC BẢNG STT TÊN B ẢNG NỘI DUNG TRANG
1 B ảng 1.1 Dữ liệu về hoa Iris Versicolor và Iris Viginica 5
2 Bảng 1.2 Bảng phân phối tần số của biến x1 7
3 B ảng 1.3 Bảng phân phối tần số của x2 với 4.5≤ x1 ≤5.1 8
4 B ảng 1.4 Bảng phân phối tần số của x3 với 4.5≤ x1≤5.1 và 1.5≤ x2 ≤1.9 8
5 B ảng 1.5 Bảng phân phối tần số của x4 với 4.5≤ x1≤5.1, 1.5≤ x2 ≤1.9và x3<3.1 9
6 B ảng 2.1 Các hàm hạt nhân phổ biến 20
7 B ảng 2.5a Bảng kích thước chi tiết nhỏ 30
8 B ảng 2.5b Bảng kích thước chi tiết lớn 30
9 B ảng 2.5c Bảng tính dựa vào biến x cho mẫu 1 1 34
10 B ảng 2.5d Bảng tính dựa vào biến x cho mẫu 2 1 34
11 B ảng 2.5e Bảng tính dựa vào biến x cho mẫu 1 2 35
12 B ảng 2.5f Bảng tính dựa vào biến x cho mẫu 2 2 35
Trang 7PH ẦN MỞ ĐẦU
1 Gi ới thiệu bài toán phân loại và phân biệt
Khi dữ liệu đến từ nhiều nhóm khác nhau, người ta có nhu cầu phân biệt chúng theo nguồn gốc ban đầu, để khi có phần tử mới thì xếp vào nhóm thích hợp nhất Đây
là nhiệm vụ của bài toán phân loại và phân biệt Cụ thể hai bài toán này được đặt ra như sau:
Bài toán phân bi ệt : Từ một tập hợp gồm các phần tử mà ta biết rõ các phần tử đến từ tổng thể nào trong số k tổng thể, dựa trên các biến quan sát từ mỗi phần tử cần
tìm ra một quy luật để phân chia chúng đúng như k tổng thể ban đầu
Bài toán phân lo ại: Với k tổng thể đã cho và một phần tử mới có biến quan sát đã
biết, cần tìm một quy luật tối ưu để xếp nó vào tổng thể thích hợp nhất trong số k tổng
thể đã biết trước
Thông thường nếu tìm được những biểu thức giải tích cụ thể cho bài toán phân
bi ệt thì cũng sẽ giải quyết được bài toán phân loại và trong trường hợp này cả hai bài
toán đặt ra đều được giải quyết trọn vẹn
Trong luận văn này, chúng tôi tổng kết những phương pháp cho đến hiện tại để
giải quyết bài toán phân loại và phân biệt Hiện tại có bốn phương pháp chính để giải quyết hai bài toán này: phương pháp thống kê thứ tự, phương pháp Fisher, phương pháp Bayes và phương pháp hàm cực đại Trong mỗi phương pháp sẽ lấy những ví dụ
2 Sơ lược sự phát triển và tính ứng dụng của bài toán phân loại và phân biệt
Bài toán phân lo ại và phân biệt lần đầu tiên được đưa ra bởi Fisher (1936) giải
quyết cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt này chỉ được thiết lập khi ma trận hiệp phương sai của hai tổng thể bằng nhau Năm
Trang 81948, Rao đã mở rộng cho trường hợp nhiều hơn hai tổng thể, nhưng cũng trên cơ sở
giả thiết ma trận hiệp phương sai các tổng thể bằng nhau Một phương pháp khác, đó
là phương pháp thống kê thứ tự do Kendall (1973) đề nghị Nhưng đây chỉ là phương pháp mang tính chất thủ công, rất phức tạp mà thực tế gần như không thể thực hiện được
Một số khía cạnh liên quan của bài toán phân loại và phân biệt chưa được đề cập
cho đến 1970 khi mà máy tính chưa được phát triển Webb (2002), đã tổng kết những
kết quả đạt được của bài toán phân loại và phân biệt Dựa vào phương pháp Bayes hàm phân biệt tuyến tính, hàm phân biệt bậc hai đã được thiết lập để giải quyết bài toán phân loại và phân biệt Ở đây xác suất sai lầm của phân loại và phân biệt đã được
xem xét Phương pháp Bayes cho đến nay được xem có nhiều ưu điểm nhất vì đã giải quyết được yêu cầu đặt ra của bài toán: Tìm ra thuật toán, đồng thời đưa ra biểu thức tính sai số phân loại và phân biệt Tuy nhiên vấn đề giải quyết chỉ mang tính chất lý
thuyết, việc tính toán thực tế hầu như chưa có sự tiến bộ nào đáng kể do tính chất phức
tạp của các tiêu chuẩn, hay tính tích phân,… Việc phân loại và phân biệt đặc biệt là
việc tính xác suất sai lầm cụ thể chỉ được thực hiện khi có các giả thiết về ma trận hiệp phương sai bằng nhau, v ề tính chuẩn của dữ liệu và hầu như chỉ xem xét cho trường
3 C ấu trúc của luận văn
Luận văn gồm 3 phần: phần mở đầu, phần nội dung, phần kết luận và tài liệu tham khảo Phần nội dung luận văn gồm 3 chương, trong mỗi chương đều có ví dụ áp
dụng
Chương 1 Phương pháp thống kê thứ tự và phương pháp Fisher : Giới thiệu 2
phương pháp phân loại có thể áp dụng lần lượt từ 2 tổng thể cho đến nhiều hơn 2
tổng thể và những ví dụ áp dụng cho hai phương pháp này
Chương 2 Phương pháp Bayes: Là phương pháp có nhiều ưu điểm trong bài toán phân loại và phân biệt Được xây dựng trên cơ sở dữ liệu chuẩn hoặc không
Trang 9chuẩn, với giả thiết ma trận phương sai của các tổng thể bằng nhau hoặc không bằng nhau Dựa trên xác suất tiên nghiệm và hàm mật độ xác suất đưa ra hàm phân biệt Phương pháp này xác định được xác suất sai lầm tối thiểu trong phân loại
Chương 3 Phương pháp hàm cực đại : Trong chương này dựa vào hàm cực đại
có thể thiết lập một công cụ mới cho bài toán phân loại và phân biệt, nêu ra những
mệnh đề cơ bản liên quan của f max( )x và g max( )x và những vấn đề quan tâm của bài toán, chứng minh sự đơn giản, hiệu quả của nó trong việc tính toán, trong cách trình bày và minh họa so với những phương pháp truyền thống của bài toán phân loại và phân biệt
Trang 10tại chổ
1.1.1 Thu ật toán
Thuật toán cho phương pháp này với véc tơ quan sát dùng để phân loại
được cụ thể như sau:
Bước 1: Xét biến quan sát x1, tìm các giá trị cụ thể của x1 từ đó quyết định phần
tử nào thuộc w1 mà không thuộc w2 hoặc ngược lại hoặc thuộc cả hai Chẳng hạn ta tìm được các giá trị của x1 là x10 và x11 sao cho:
Nếu những phần tử nào đó có x1 < x10 thì xếp vào w1.
Nếu những phần tử nào đó có x1 > x11 thì xếp vào w2.
Nếu những phần tử nào đó có x10 ≤ x1 ≤ x11 chưa xác định thuộc tổng
Trang 111.1.2 Ví d ụ
Ví d ụ 1.1 Trong phần này chúng tôi lấy dữ liệu về hoa Iris để minh họa cho phương
pháp đã trình bày Đây là dữ liệu đã được chứng minh là chuẩn Hoa Iris là một loài hoa ở châu Âu, có giá trị cao về dược liệu Có nhiều loại hoa Iris và mỗi loại có một giá trị khác nhau mà mắt thường không phân biệt được nên người ta phải sử dụng đến công cụ thống kê để tiến hành phân loại và phân biệt Trong các loại hoa Iris hai loại được xem khó phân biệt nhất là Versicolor và Viginica Do đó chúng ta sẽ tiến hành phân loại và phân biệt cho hai loại này Mỗi loại chọn một mẫu gồm 50 phần tử và quan sát các biến x1: độ dài của đài hoa; x2: độ rộng của đài hoa; x3: độ dài của cánh
hoa ; x4
Iris versicolor
: độ rộng của cánh hoa Dữ liệu cụ thể được cho bởi bảng 1.1
B ảng 1.1 Dữ liệu về hoa Iris Versicolor và Viginica
(Theo Kendall 1973)
Iris virginica
x 1 x 2 x 3 x 4 x 1 x 2 x 3 x 4
4.7 4.5 4.9 4.0 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4.0 4.7 3.6 4.4 4.5
1.4 1.5 1.5 1.3 1.5 1.3 1.6 1.0 1.3 1.4 1.0 1.5 1.0 1.4 1.3 1.4 1.5
3.2 3.2 3.1 2.3 2.8 2.8 3.3 2.4 2.9 2.7 2.0 3.0 2.2 2.9 2.9 3.1 3.0
7.0 6.4 6.9 5.5 6.5 5.7 6.3 4.9 6.6 5.2 5.0 5.9 6.0 6.1 5.6 6.7 5.6
6.0 5.1 5.9 5.6 5.8 6.6 4.5 6.3 5.8 6.1 5.1 5.3 5.5 5.0 5.1 5.3 5.5
2.5 1.9 2.1 1.8 2.2 2.1 1.7 1.8 1.8 2.5 2.0 1.9 2.1 2.0 2.4 2.3 1.8
3.3 2.7 3.0 2.9 3.0 3.0 2.5 2.9 2.5 3.6 3.2 2.7 3.0 2.5 2.8 3.2 3.0
6.3 5.8 7.1 6.3 6.5 7.6 4.9 7.3 6.7 7.2 6.5 6.4 6.8 5.7 5.8 6.4 6.5
Trang 124.1 4.5 3.9 4.8 4.0 4.9 4.7 4.3 4.4 4.8 5.0 4.5 3.5 3.8 3.7 3.9 5.1 4.5 4.5 4.7 4.4 4.1 4.0 4.4 4.6 4.0 3.3 4.2 4.2 4.2 4.3 3.0
1.0 1.5 1.1 1.8 1.3 1.5 1.2 1.3 1.4 1.4 1.7 1.5 1.0 1.1 1.0 1.2 1.6 1.5 1.6 1.5 1.3 1.3 1.3 1.2 1.4 1.2 1.0 1.3 1.2 1.3 1.3 1.1
2.7 2.2 2.5 3.2 2.8 2.5 2.8 2.9 3.0 2.8 3.0 2.9 2.6 2.4 2.4 2.7 2.7 3.0 3.4 3.1 2.3 3.0 2.5 2.6 3.0 2.6 2.3 2.7 3.0 2.9 2.9 2.5
5.8 6.2 5.6 5.9 6.1 6.3 6.1 6.4 6.6 6.8 6.7 6.0 5.7 5.5 5.5 5.8 6.0 5.4 6.0 6.7 6.3 5.6 5.5 5.5 6.1 5.8 5.0 5.6 5.7 5.7 6.2 5.1
6.7 6.9 5.0 5.7 4.9 6.7 4.9 5.7 6.0 4.8 4.9 5.6 5.8 6.1 6.4 5.6 5.1 5.6 6.1 5.6 5.5 4.8 5.4 5.6 5.1 5.1 5.9 5.7 5.2 5.0 5.2 5.4
2.2 2.3 1.5 2.3 2.0 2.0 1.8 2.1 1.8 1.8 1.8 2.1 1.6 1.9 2.0 2.2 1.5 1.4 2.3 2.4 1.8 1.8 2.1 2.4 2.3 1.9 2.3 2.5 2.3 1.9 2.0 2.3
3.8 2.6 2.2 3.2 2.8 2.8 2.7 3.3 3.2 2.8 3.0 2.8 3.0 2.8 3.8 2.8 2.8 2.6 3.0 3.4 3.1 3.0 3.1 3.1 3.1 2.7 3.2 3.3 3.0 2.5 3.0 3.4
7.7 7.7 6.0 6.9 5.6 7.7 6.3 6.7 7.2 6.2 6.1 6.4 7.2 7.4 7.9 6.4 6.3 6.1 7.7 6.3 6.4 6.0 6.9 6.7 6.9 5.8 6.8 6.7 6.7 6.3 6.5 6.2
Trang 134.1 1.3 2.8 5.7 5.1 1.8 3.0 5.9
Với dữ liệu trên chúng ta cần tìm những điểm biên cho sự phân biệt của hai
tổng thể, từ đó tìm ra quy luật để phân loại một phần tử mới
ii) Dựa vào bảng 1.2 ta có một nguyên tắc phân loại phần tử với biến x1
4.4
1≤
x
như sau:
Nếu thì xếp phần tử vào (Ve),
Nếu x1≥5.2 thì xếp phần tử vào (Vi),
Trang 14Nếu 4.5≤ x1 ≤5.1 thì sử dụng tiếp biến x2
1.55
4 ≤ x1≤
để phân loại
Có 21 phần tử của (Ve) và 16 phần tử của (Vi) có Lập bảng phân phối
tần số cho 37 phần tử này với biến x2 ta có kết quả:
B ảng 1.3 Bảng phân phối tần số của x 2 v ới 4.5≤ x1 ≤5.1
x2 Số phần tử của (Ve) Số phần tử của (Vi)
Nếu x2 ≤1.44 thì xếp phần tử vào (Ve),
Nếu x2 ≥1.9 thì xếp phần tử vào (Vi),
Nếu 1.5≤ x2 ≤1.9 thì sử dụng tiếp biến x3
9.15
4 ≤ x1≤ Lập bảng phân phối tần số cho 22 phần tử này với biến x3 ta có kết quả:
B ảng 1.4 Bảng phân phối tần số của x 3 v ới 4.5≤ x1≤5.1 và 1.5≤ x2 ≤1.9
x3 Số phần tử của (Ve) Số phần tử của (Vi)
Trang 15x thì xếp vào (Ve)
1.3
3<
x thì sử dụng tiếp biến x4
1.55
B ảng 1.5 Bảng phân phối tần số của x 4 v ới 4.5≤ x1 ≤5.1, 1.5≤ x2 ≤1.9, x3<3.1
x4 Số phần tử của (Ve) Số phần tử của (Vi)
Trang 164 ≥
x thì xếp vào (Ve),
3.5
4 ≤
x thì xếp vào (Vi),
3.64
5 ≤ x4 ≤ thì không biết xếp vào nhóm nào
v) Giả sử có một phần tử mới với biến quan sát
2.4
3.3
0.70
5.2
8.1
8.5
0
x thieo iv) ta xếp nó vào
nhóm (Ve)
1.2 PHƯƠNG PHÁP FISHER
Phương pháp này được giới thiệu lần đầu tiên bởi Fisher năm 1936 và có thể áp
dụng cho 2 tổng thể và nhiều hơn 2 tổng thể dựa trên số liệu rời rạc thu nhận được Phương pháp có ý nghĩa về t hực tế bởi sự đơn giản thuật toán của nó nên được ứng
dụng trong nhiều lĩnh vực khác nhau Hạn chế của phương pháp này là phải xem xét trên cơ sở ma trận hiệp phương sai của các tổng thể bằng nhau và không tính được xác
suất sai lầm trong bài toán phân loại và phân biệt
1.2 1 Phương pháp
i) Xét trong trường hợp 2 tổng thể w1 và w2
1
µ
với biến quan sát x có n chiều Gọi
và µ2 lần lượt là trung bình của w và 1 w theo bi2 ến x Giả sử ma trận hiệp phương
Trang 17µ = µ là trung bình của w1
T 2y l 2
l l
l l
l l
T
T T
T
T T
y
y y
Σ
−
−
=Σ
−
=
2 1
2
2 2
1
2
12
1 µ +µ = µ −µ Σ µ +µ
y y
với biến quan sát x thì lu0 ật nhận dạng Fisher được thực hiện như sau:
X ếp phần tử mới vào w1 y =( − )TΣ− x ≥m
0
1 2 1
0 µ µ
ii) Xét trong trường hợp nhiều hơn 2 tổng thể w1, w2, w k
Σ
=Σ
=
=Σ
là véc tơ trung bình chung của các tổng thể theo biến y,
σy2 =l TΣl là phương sai giống nhau của các tổng thể theo biến y
Trang 18Tương tự như trường hợp 2 tổng thể, để tìm hàm phân biệt tuyến tính y, chúng
ta tìm l để biểu thức sau đạt giá trị lớn nhất
l l
l B l l
l
l l
T o T T
k i
T i i
T k
i y
y iy
l l
l I B
T i
i i
λ
Fisher chứng minh biểu thức ( 1.3) đạt giá trị lớn nhất khi hệ số của vectơ l
được xác định:
Khi đó y i =l i T x, i≤ s được gọi là hàm phân biệt thứ i
Giả sử có r hàm phân biệt Fisher vừa tìm ở trên thì khoảng cách từ Y = y
i
T
j x l
1
2µ
Việc phân loại phần tử mới y theo phương pháp Fisher được thực hiện rất tự
nhiên: Xếp y vào tổng thể w n j ếu bình phương khoảng cách từ y tới µjy nhỏ hơn bình
phương khoảng cách từ y tới µiy với mọi i≠ Cj ụ thể:
T i
i x x
2
1)
Lúc này phần tử mới x sẽ được xếp vào w j nếu h j (x) nhỏ nhất Vì x T Σ x − 1
giống nhau cho tất cả h i (x) nên qui tắc nhận dạng được đơn giản như sau:
Xếp x và w n j ếu d j(x) = max{d i( )x} (1.4)
Trang 19Trong thực tế, không có các tổng thể mà chỉ có dữ liệu mẫu rời rạc của các tổng
thể, vì vậy các tham số của tổng thể được thay thế bằng các tham số của mẫu Giả sử
i N n
1, , có ma trận
dữ liệu X mà c i ột thứ j là x G ij ọi S là ma tr i ận hiệp phương sai của tổng thể thứ i
n j ij i
i
i
x N
x n N
x
11
i x x x x
T i ij i ij k
i
i i
i
x x x x S
n W
1 1 1
))(
()
pooled
k n
W S
1
Lúc này ta sẽ thay thế µi bằng x , i µ bởi x và Σ bởi S pooled
Trong thực tế người ta cũng có thể gộp hai dữ liệu của hai tổng thể để tính ma trận
hiệp phương sai chung và chọn S pooled chính là ma trận này
1.2.2 Ví d ụ
Ví d ụ 1.2 Xét lại ví dụ trong phương pháp thống kê thứ tự Từ bảng 1.1 ta có thể tính
được các tham số thống kê của dữ liệu Versicolor và Vinigica như sau:
0
072.0216.0081.0179
0
040.0081.0097.0083
0
055.0179.0083.0261
048.0298.0070.0297.0
047.0070.0102.0092.0
048.0297.0092.0396.0
286.0675.0141.0499.0
079.0141.0110.0121.0
165.0499.0121.0435.0
S
Ma trận S được lấy làm ma trận hiệp phương chung của hai tổng thể
Từ số liệu trên ta có
Trang 20Hàm phân biệt tuyến tính Fisher’s: ( )T 1
1 2
y= µ µ− Σ− X
1 2 3 4
0.001123 0.000489 0.001182 0.0010660.000489 0.000437 0.000499 0.0005380.652 0.204 1.292 0.7
0.001182 0.000499 0.001317 0.0012360.001066 0.000538 0.001236 0.001323
x x x x
4.2601.326
x
6.5882.974
5.5522.026
7.4
2.3
0.70
x
7.03.2
4.71.4
Vì y > 0 m nên ta sẽ xếp phần tử mới này vào tổng thể thứ nhất
Ví d ụ 1.3 cho 3 tổng thể ω1,ω2,ω3 với ma trận quan sát X ,1 X ,2 X và ma tr3 ận hiệp
phương sai S ,1 S2 S 3 như sau:
Trang 22Chương 2 PHƯƠNG PHÁP BAYES
x=( 1, 2, , )∈ và
n
dx dx
dx
dx = 1 2 Hàm số f(x) xác định trên Rn
0)
f
được gọi là hàm mật độ xác suất n
chiều của đại lượng ngẫu nhiên liên tục X nếu nó thỏa hai điều kiện:
dx x
R x x
f
1)(
0)(
2.1.2 Phân phối chuẩn
Đại lượng ngẫu nhiên U được gọi là có phân phối chuẩn tắc 1 chiều nếu hàm mật
1)(
2
u u
22
12
12
exp2
1)
()
(
2π
Trong đó erf u = ∫u ( )−x dx
0
2exp
2)(
Trang 23Cho µ tùy ý và σ >0, đặt X =µ+σU , khi đó đại lượng ngẫu nhiên X sẽ có
phân phối chuẩn với trung bìnhµ và phương sai σ2 (kí hiệu X ~ N(µ,σ2)) với hàm
1)
(
σ
µπ
σ
x x
i
u u u f
2 2
/ 2
1
2
1exp)
2(
1)
()
, ,,(
π
độc lập và mỗi biến ngẫu nhiên có phân phối chuẩn tắc, khi
đó đại lượng ngẫu nhiên U có phân phối chuẩn tắc n chiều nếu hàm mật độ xác suất
1exp)
2(
1)
1exp)
2(
1)
2.1.3 Ước lượng hàm mật độ xác suất
Để ước lượng hàm mật độ xác suất người ta sử dụng hai phương pháp chính:
Ước lượng tham số và ước lượng phi tham số Trong luận văn khi ước lượng tham số
ta sử dụn g phương pháp hợp lý cực đại và khi ước lượng phi tham số ta sử dụng
f
từ phân phối , nghĩa là L(θ)= f(x1, ,x n |θ) Phương pháp hợp lý cực đại là
phương pháp tổng quát cho ước lượng điểm với mục tiêu là xác định tham số θ sao
cho L(θ) là cực đại Điều này dẫn tới việc giải phương trình với ẩn số θ :
Trang 24Trong điều kiện tổng quát ước lượng hợp lý cực đại là ước lượng vững, tiệm cận ước lượng hiệu quả Nó không phải là ước lượng không chệch mặc dù nó tiệm cận đến ước lượng này nếu phân phối tiệm cận có trung bình hữu hạn Đây được xem là phương pháp ước lượng tham số hiệu quả nhưng khó khăn chính là v iệc giải quyết phương trình (2.2)
i N
2
1exp)
2(
Σ
, N > n t ừ phân phối chuẩn n chiều có hàm
mật độ xác suất được cho bởi (2.1), hàm hợp lý được xác định như sau:
L là hàm của hai biến µ và Σ Giải quyết phương trình (2.2) với L ở trên chúng
x x
1
1ˆ
x
1
))(
(
1ˆ
Ước lượng hợp lý cực đại của µ là ước lượng không chệch, còn ước lượng hợp
lý cực đại của Σ là ước lượng chệch Trong thực tế người ta thường sử dụng ước lượng không chệch cho Σ , khi đó tham số này được ước lượng bởi công thức
i x x x x
1 -
))(
(
1ˆΣ
b) P hương pháp hàm hạt nhân
Ngoài phương pháp tham số, trong thống kê chúng ta cũng sử dụng rất phổ biến phương pháp phi tham số để ước lượng hàm mật độ xác suất Có nhiều phương pháp phi tham số khác nhau được sử dụng như phương pháp biểu đồ tần số, phương pháp
phần tử lân cận gần nhất,…trong đó phương pháp hàm hạt nhân được dánh giá có nhiều ưu điểm hơn Trong luận văn này, khi ước lượng phi tham số hàm mật độ xác
suất chúng tôi áp dụng phương pháp hàm hạt nhân
Gọi {x1,x2, ,x N} là tập dữ liệu quan sát để ước lượng hàm mật độ xác suất
i) Khi d ữ liệu quan sát 1 chiều
Hàm mật độ xác suất ước lượng có dạng
f
1
1)
Trang 25dz z K
z K
Một số hàm hạt nhân thông thường được cho trong bảng 1.1
ii) Khi d ữ liệu quan sát n chiều
Trong trường hợp này hàm mật độ xác suất ước lượng có dạng là tích của các hàm mật độ xác suất ước lượng 1 chiều
x x K h
h h N
f
1 1 2
1
11)(
Trong đó,
h j là tham số trơn cho biến thứ j ,
K j(.) là hàm hạt nhân cho biến thứ j
Hàm hạt nhân và tham số trơn thường được chọn giống nhau cho tất cả các biến, khi
i n
h
x x K h
N
f
1 1
11)(
ˆ x
Chú ý:
1) Trong ước lượng hàm mật độ xác suất thì việc chọn tham số trơn h quan trọng hơn việc chọn hàm hạt nhân Giá trị của h càng lớn thì hàm mật độ xác suất ước
lượng càng trơn, nhưng khi đó hàm mật độ xác suất ước lượng sai lệch nhiều so
với thực tế Nhưng nếu h càng nhỏ thì hàm mật độ xác suất càng không trơn
Trong luận văn này khi ước lượng hàm mật độ xác suất bằng phương pháp hàm hạt nhân, chúng tôi chọn tham số trơn theo Scott (1992)
j n j
n N
1
)2(
= (2.4)
Với N là số phần tử mẫu và σj là độ lệch chuẩn mẫu theo biến thứ j
Trong trường hợp 1 chiều, tham số trơn trở thành
Trang 26( ) 1 / 5 ( ) 1 / 5
5 / 1
06.13
Với σ là độ lệch chuẩn mẫu
2) Các hàm hạt nhân phổ biến được chọn theo đề xuất của Silverman (1986) và Scott (1992) trong bảng sau:
0
1khi
1)(
x
x x
x f
0
1khi
2
1)(
x
x x
1)(
2
x x
1khi
)1(16
15)(
2 2
x x
x f
0
1khi
)1(4
3)(
2
x
x x
x f
F ( ) chúng ta thường gặp f (x) không
có nguyên hàm hoặc nguyên hàm phức tạp Trong những trường hợp này người ta phải tính gần đúng nó Có nhiều cách để tính gần đúng tích phân Những phương pháp truyền thống cho việc tính tích phân số thường dựa trên ý nghĩa hình học Cụ thể
những phương pháp sau thường được sử dụng:
a) Phương pháp hình chữ nhật
Trang 27=
∆
≈ 10)(
N i
i x x f
F Trong đó
N
a b
1)()
(2
được xác định giống như phương pháp hình chữ nhật Sai số trong phương pháp này có
c) Phương pháp Simpson một trên ba
Khi tính tích phân bội, các phương pháp vừa trình bày ở trên cũng có tốc độ hội
tụ về giá trị đúng giảm do nó tỷ lệ nghịch với số chiều Nếu sai số tính gần đúng tích phân có cấp độ ( )a
3
Trang 28
Điều này cũng có nghĩa để đảm bảo sai số trong tính tích phân nhiều chiều như trong trường hợp 1 chiều thì khối được chia đòi hỏi rất lớn Hơn nữa khi miền lấy tích phân
phức tạp rất khó thực hiện với 3 phương pháp trên Đây là hai lý do chính mà các phương pháp truyền thống tính gần đúng tích phân trong thực tế hầu như ít được sử
dụng trong tích phân bội
2.2.2 P hương pháp Monte Carlo
a) Phương pháp
Cho đến hiện tại, tích phân Monte Carlo là phương pháp tính gần đúng tích phân nhiều chiều hiệu quả nhất Nguyên lý cơ bản của nó là việc ước lượng tích phân của
một hàm số f trên một miền không gian nhiều chiều có biên phức tạp thông qua việc
tính giá trị trung bình của f tại các điểm có tọa độ ngẫu nhiên
Xét tích phân n chiều trên miền V: =∫
V
dx x f
x f N
V Vol I
1
)(ˆ
Vol(V) là độ đo của miền V
Theo luật mạnh của số lớn, khi thì Iˆ→ Ivới xác suất bằng 1 Vì vậy ta
có thể sử dụng Iˆ để làm giá trị xấp xỉ cho I
∑ ( )
=
i i
x f N
V Vol I
1
)(
(2.6)
Khi n=1, ta có tích phân một chiều =∫b
a
dx x f
x f N
a b I
1
(2.7)
Trong đó xi là các giá trị lấy ngẫu nhiên độc lập trên [a, b]
Khi tính tích phân hàm f trên m ột miền phức tạp W không dễ dàng tính được
diện tích, thể tích, …, công việc trước hết là đi tìm một miền V bao trùm miền W và
Trang 29dễ lấy mẫu (V có hình dạng đơn giản như khối chữ nhật,…), sau đó ta gán giá trị của f
cụ thể đối với những điểm nằm trong W và gán cho f = 0 đối với những điểm nằm ngoài W nhưng vẫn nằm trong V Ở đây ta chọn V càng trùng khít với W thì việc ước
lượng kết quả của (1.17) càng tốt
x f N
f
1)(
f N
f Var
1
2 2
)(1
1)
f Var V
Vol I
Var
2 2 2
)]
([)()]
([)
Sai số của việc ước lượng tích phân
N V Vol I
)()
Như vậy sai số trong tính gần đúng tích phân bằng phương pháp Monte Carlo độc
lập với với số chiều Nó luôn có cấp độ
1
N
O Xét tốc độ hội tụ về giá trị đúng
trong tính gần đúng, thì tích phân Monte Carlo hội tụ nhanh hơn phương pháp hình
chữ nhật khi số chiều lớn hơn 1, nhanh hơn phương pháp hình thang khi số chiều lớn hơn 4 và nhanh hơn phương pháp Simson khi số chiều lớn hơn 6 Nhưng trong thực tế tính toán, khi số chiều lớn hơn 1 và miền lấy tích phân phức tạp phương pháp tính gần đúng tích phân truyền thống rất phức tạp nên người ta hầu n hư chỉ sử dụng phương pháp tính tích phân Monte Carlo Phương pháp tính tích phân Monte Carlo có những thuận lợi và hạn chế sau:
Trang 30H ạn chế:
- Khó xác định việc chọn mẫu như thế nào là tối ưu và số lượng bao nhiêu là
đủ theo yêu cầu cụ thể đặt ra Việc tính tích phân phụ thuộc rất lớn vào việc
chọn mẫu
- Sự hội tụ chậm Để giảm bớt phân nữa sai số người ta phải tăng số mẫu lấy lên gấp 4 lần
2.3 PHÂN LO ẠI VÀ PHÂN BIỆT CHO HAI TỔNG THỂ
2.3.1 Nguyên t ắc phân loại
i) Xét hai tổng thể w và 1 w v2 ới biến quan sát x trên n
R Gọi P(w i |x) là xác
suất để phần tử mới với biến quan sát x thuộc tổng thể thứ i, khi đó việc phân biệt hai
tổng thể được thực hiện đơn giản như sau:
Nếu P(w1|x)>P(w2 |x) thì xếp phần tử mới vào w1, ngược lại xếp vào
w2.
)
|(w x
)()
|()(
)
|()(2
1
x f
x f q w x f w P
w x f w
i
i i
i P w
q = là xác suất tiên nghiệm của tổng thể wi, q1 + q2
)
|()
()
1
)(
)(
q
q x f
x
f >
(2.10)
Nguyên tắc (2.10) có thể viết lại dưới hình thức sau:
l(x) = xếp vào w1, ngược lại xếp vào w2 (2.11)