Bài toán phân loại và phân biệt

Trong luận văn này, chúng tôi tổng kết những phương pháp cho đến hiện tại để giải quyết bài toán phân loại và phân biệt.. Sơ lược sự phát triển và tính ứng dụng của bài toán phân loại và

Trang 1

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA H ỌC TỰ NHIÊN

B Ộ MÔN TOÁN

- -

GIÁO VIÊN HƯỚNG DẪN

ThS VÕ V ĂN TÀI

(B Ộ MÔN TOÁN – KHOA KHTN)

SINH VIÊN TH ỰC HIỆN

TR ẦN THỊ NGỌC MAI NGÀNH:TOÁN ỨNG DỤNG-K32

Trang 2

Em vô cùng biết ơn quý Thầy Cô trong Khoa Khoa học tự nhiên trường Đại học

Cần Thơ đặc biệt là Thầy Cô trong Bộ môn toán đã giảng dạy, dìu dắt em trong suốt

thời gian theo học tại trường Đại học Cần Thơ

Cám ơn các bạn lớp Toán ứng dụng K32 đã động viên, giúp đỡ trong quá trình

học tập và thực hiện đề tài

Cuối cùng xin bày tỏ lòng biết ơn đặc biệt đến gia đình, những người đã luôn ở bên cạnh, giúp đỡ, động viên và tạo mọi điều kiện thuận lợi cho em vượt qua những khó khăn trong quá trình học tập và thực hiện luận văn tốt nghiệp này

Mặc dù đã cố gắng hết sức, nhưng do trình độ còn hạn chế, luận văn không tránh khỏi sai sót Kính mong sự góp ý của quý Thầy Cô và các bạn để luận văn được hoàn thiện hơn

Cần Thơ, tháng 5 năm 2010

Tr ần Thị Ngọc Mai

Trang 3

M ỤC LỤC

Chương 1 PHƯƠNG PHÁP THỐNG KÊ THỨ TỰ

VÀ PHƯƠNG PHÁP FISHER 4

1.1 Phương pháp thống kê thứ tự 4

1.1.1 Thuật toán 4

1.1.2 Ví dụ 5

1.2 Phương pháp Fisher 10

1.2.1 Phương pháp 10

1.2.2 Ví dụ 13

Chương 2 PHƯƠNG PHÁP BAYES 16

2.1 Hàm mật độ xác suất … 16

2.1.1 Định nghĩa 16

2.1.2 Phân phối chuẩn 16

2.1.3 Ước lượng hàm mật độ xác suất 17

2.2 Tính gần đúng tích phân … 21

2.2.1 Phương pháp truyền thống … 21

2.2.2 Phương pháp Monte Carlo … 22

2.3 Phân loại và phân biệt cho hai tổng thể … 24

2.3.1 Nguyên tắc phân loại … 24

2.3.2 Sai số Bayes … 27

2.4 Phân loại và phân biệt cho nhiều tổng thể … 28

2.4.1 Nguyên tắc phân loại … 28

2.4.2 Sai số Bayes … 28

2.5 Ví dụ … 30

2.5.1 Trường hợp 1 … 30

2.5.2 Trường hợp 2 … 32

Chương 3 PHƯƠNG PHÁP HÀM CỰC ĐẠI 37

3.1 Giới thiệu … 37

3.2 Hàm cực đại trong bài toán phân loại và phân biệt … 37

3.2.1 Nguyên tắc phân loại phần tử mới … 37

3.2.2 Vấn đề xác định hàm cực đại trong các hàm mật độ xác suất … 38

Trang 4

3.2.3 Sai số Bayes trong phương pháp hàm cực đại… 43

3.3 Sử dụng phần mềm toán học trong bài toán phân loại và phân biệt… 45

3.3.1 Chương trình tính tích phân… 45

3.3.2 Chương trình phân loại phần tử mới… 47

3.3.3 Chương trình tìm hàm cực đại và tính sai số Bayes… 48

K ẾT LUẬN 52

TÀI LI ỆU THAM KHẢO 54

Trang 5

DANH M ỤC CÁC HÌNH

STT TÊN HÌNH N ỘI DUNG TRANG

1 Hình 3.1 Đồ thị của bảy hàm mật độ xác suất một chiều,

f max( )x và g max( )x 51

2 Hình 3.2 Đồ thị của ba hàm mật độ xác suất hai chiều 53

Trang 6

DANH MỤC CÁC BẢNG STT TÊN B ẢNG NỘI DUNG TRANG

1 B ảng 1.1 Dữ liệu về hoa Iris Versicolor và Iris Viginica 5

2 Bảng 1.2 Bảng phân phối tần số của biến x1 7

3 B ảng 1.3 Bảng phân phối tần số của x2 với 4.5≤ x1 ≤5.1 8

4 B ảng 1.4 Bảng phân phối tần số của x3 với 4.5≤ x1≤5.1 và 1.5≤ x2 ≤1.9 8

5 B ảng 1.5 Bảng phân phối tần số của x4 với 4.5≤ x1≤5.1, 1.5≤ x2 ≤1.9và x3<3.1 9

6 B ảng 2.1 Các hàm hạt nhân phổ biến 20

7 B ảng 2.5a Bảng kích thước chi tiết nhỏ 30

8 B ảng 2.5b Bảng kích thước chi tiết lớn 30

9 B ảng 2.5c Bảng tính dựa vào biến x cho mẫu 1 1 34

10 B ảng 2.5d Bảng tính dựa vào biến x cho mẫu 2 1 34

11 B ảng 2.5e Bảng tính dựa vào biến x cho mẫu 1 2 35

12 B ảng 2.5f Bảng tính dựa vào biến x cho mẫu 2 2 35

Trang 7

PH ẦN MỞ ĐẦU

1 Gi ới thiệu bài toán phân loại và phân biệt

Khi dữ liệu đến từ nhiều nhóm khác nhau, người ta có nhu cầu phân biệt chúng theo nguồn gốc ban đầu, để khi có phần tử mới thì xếp vào nhóm thích hợp nhất Đây

là nhiệm vụ của bài toán phân loại và phân biệt Cụ thể hai bài toán này được đặt ra như sau:

Bài toán phân bi ệt : Từ một tập hợp gồm các phần tử mà ta biết rõ các phần tử đến từ tổng thể nào trong số k tổng thể, dựa trên các biến quan sát từ mỗi phần tử cần

tìm ra một quy luật để phân chia chúng đúng như k tổng thể ban đầu

Bài toán phân lo ại: Với k tổng thể đã cho và một phần tử mới có biến quan sát đã

biết, cần tìm một quy luật tối ưu để xếp nó vào tổng thể thích hợp nhất trong số k tổng

thể đã biết trước

Thông thường nếu tìm được những biểu thức giải tích cụ thể cho bài toán phân

bi ệt thì cũng sẽ giải quyết được bài toán phân loại và trong trường hợp này cả hai bài

toán đặt ra đều được giải quyết trọn vẹn

Trong luận văn này, chúng tôi tổng kết những phương pháp cho đến hiện tại để

giải quyết bài toán phân loại và phân biệt Hiện tại có bốn phương pháp chính để giải quyết hai bài toán này: phương pháp thống kê thứ tự, phương pháp Fisher, phương pháp Bayes và phương pháp hàm cực đại Trong mỗi phương pháp sẽ lấy những ví dụ

2 Sơ lược sự phát triển và tính ứng dụng của bài toán phân loại và phân biệt

Bài toán phân lo ại và phân biệt lần đầu tiên được đưa ra bởi Fisher (1936) giải

quyết cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt này chỉ được thiết lập khi ma trận hiệp phương sai của hai tổng thể bằng nhau Năm

Trang 8

1948, Rao đã mở rộng cho trường hợp nhiều hơn hai tổng thể, nhưng cũng trên cơ sở

giả thiết ma trận hiệp phương sai các tổng thể bằng nhau Một phương pháp khác, đó

là phương pháp thống kê thứ tự do Kendall (1973) đề nghị Nhưng đây chỉ là phương pháp mang tính chất thủ công, rất phức tạp mà thực tế gần như không thể thực hiện được

Một số khía cạnh liên quan của bài toán phân loại và phân biệt chưa được đề cập

cho đến 1970 khi mà máy tính chưa được phát triển Webb (2002), đã tổng kết những

kết quả đạt được của bài toán phân loại và phân biệt Dựa vào phương pháp Bayes hàm phân biệt tuyến tính, hàm phân biệt bậc hai đã được thiết lập để giải quyết bài toán phân loại và phân biệt Ở đây xác suất sai lầm của phân loại và phân biệt đã được

xem xét Phương pháp Bayes cho đến nay được xem có nhiều ưu điểm nhất vì đã giải quyết được yêu cầu đặt ra của bài toán: Tìm ra thuật toán, đồng thời đưa ra biểu thức tính sai số phân loại và phân biệt Tuy nhiên vấn đề giải quyết chỉ mang tính chất lý

thuyết, việc tính toán thực tế hầu như chưa có sự tiến bộ nào đáng kể do tính chất phức

tạp của các tiêu chuẩn, hay tính tích phân,… Việc phân loại và phân biệt đặc biệt là

việc tính xác suất sai lầm cụ thể chỉ được thực hiện khi có các giả thiết về ma trận hiệp phương sai bằng nhau, v ề tính chuẩn của dữ liệu và hầu như chỉ xem xét cho trường

3 C ấu trúc của luận văn

Luận văn gồm 3 phần: phần mở đầu, phần nội dung, phần kết luận và tài liệu tham khảo Phần nội dung luận văn gồm 3 chương, trong mỗi chương đều có ví dụ áp

dụng

Chương 1 Phương pháp thống kê thứ tự và phương pháp Fisher : Giới thiệu 2

phương pháp phân loại có thể áp dụng lần lượt từ 2 tổng thể cho đến nhiều hơn 2

tổng thể và những ví dụ áp dụng cho hai phương pháp này

Chương 2 Phương pháp Bayes: Là phương pháp có nhiều ưu điểm trong bài toán phân loại và phân biệt Được xây dựng trên cơ sở dữ liệu chuẩn hoặc không

Trang 9

chuẩn, với giả thiết ma trận phương sai của các tổng thể bằng nhau hoặc không bằng nhau Dựa trên xác suất tiên nghiệm và hàm mật độ xác suất đưa ra hàm phân biệt Phương pháp này xác định được xác suất sai lầm tối thiểu trong phân loại

Chương 3 Phương pháp hàm cực đại : Trong chương này dựa vào hàm cực đại

có thể thiết lập một công cụ mới cho bài toán phân loại và phân biệt, nêu ra những

mệnh đề cơ bản liên quan của f max( )x và g max( )x và những vấn đề quan tâm của bài toán, chứng minh sự đơn giản, hiệu quả của nó trong việc tính toán, trong cách trình bày và minh họa so với những phương pháp truyền thống của bài toán phân loại và phân biệt

Trang 10

tại chổ

1.1.1 Thu ật toán

Thuật toán cho phương pháp này với véc tơ quan sát dùng để phân loại

được cụ thể như sau:

Bước 1: Xét biến quan sát x1, tìm các giá trị cụ thể của x1 từ đó quyết định phần

tử nào thuộc w1 mà không thuộc w2 hoặc ngược lại hoặc thuộc cả hai Chẳng hạn ta tìm được các giá trị của x1 là x10 và x11 sao cho:

Nếu những phần tử nào đó có x1 < x10 thì xếp vào w1.

Nếu những phần tử nào đó có x1 > x11 thì xếp vào w2.

Nếu những phần tử nào đó có x10 ≤ x1 ≤ x11 chưa xác định thuộc tổng

Trang 11

1.1.2 Ví d ụ

Ví d ụ 1.1 Trong phần này chúng tôi lấy dữ liệu về hoa Iris để minh họa cho phương

pháp đã trình bày Đây là dữ liệu đã được chứng minh là chuẩn Hoa Iris là một loài hoa ở châu Âu, có giá trị cao về dược liệu Có nhiều loại hoa Iris và mỗi loại có một giá trị khác nhau mà mắt thường không phân biệt được nên người ta phải sử dụng đến công cụ thống kê để tiến hành phân loại và phân biệt Trong các loại hoa Iris hai loại được xem khó phân biệt nhất là Versicolor và Viginica Do đó chúng ta sẽ tiến hành phân loại và phân biệt cho hai loại này Mỗi loại chọn một mẫu gồm 50 phần tử và quan sát các biến x1: độ dài của đài hoa; x2: độ rộng của đài hoa; x3: độ dài của cánh

hoa ; x4

Iris versicolor

: độ rộng của cánh hoa Dữ liệu cụ thể được cho bởi bảng 1.1

B ảng 1.1 Dữ liệu về hoa Iris Versicolor và Viginica

(Theo Kendall 1973)

Iris virginica

x 1 x 2 x 3 x 4 x 1 x 2 x 3 x 4

4.7 4.5 4.9 4.0 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4.0 4.7 3.6 4.4 4.5

1.4 1.5 1.5 1.3 1.5 1.3 1.6 1.0 1.3 1.4 1.0 1.5 1.0 1.4 1.3 1.4 1.5

3.2 3.2 3.1 2.3 2.8 2.8 3.3 2.4 2.9 2.7 2.0 3.0 2.2 2.9 2.9 3.1 3.0

7.0 6.4 6.9 5.5 6.5 5.7 6.3 4.9 6.6 5.2 5.0 5.9 6.0 6.1 5.6 6.7 5.6

6.0 5.1 5.9 5.6 5.8 6.6 4.5 6.3 5.8 6.1 5.1 5.3 5.5 5.0 5.1 5.3 5.5

2.5 1.9 2.1 1.8 2.2 2.1 1.7 1.8 1.8 2.5 2.0 1.9 2.1 2.0 2.4 2.3 1.8

3.3 2.7 3.0 2.9 3.0 3.0 2.5 2.9 2.5 3.6 3.2 2.7 3.0 2.5 2.8 3.2 3.0

6.3 5.8 7.1 6.3 6.5 7.6 4.9 7.3 6.7 7.2 6.5 6.4 6.8 5.7 5.8 6.4 6.5

Trang 12

4.1 4.5 3.9 4.8 4.0 4.9 4.7 4.3 4.4 4.8 5.0 4.5 3.5 3.8 3.7 3.9 5.1 4.5 4.5 4.7 4.4 4.1 4.0 4.4 4.6 4.0 3.3 4.2 4.2 4.2 4.3 3.0

1.0 1.5 1.1 1.8 1.3 1.5 1.2 1.3 1.4 1.4 1.7 1.5 1.0 1.1 1.0 1.2 1.6 1.5 1.6 1.5 1.3 1.3 1.3 1.2 1.4 1.2 1.0 1.3 1.2 1.3 1.3 1.1

2.7 2.2 2.5 3.2 2.8 2.5 2.8 2.9 3.0 2.8 3.0 2.9 2.6 2.4 2.4 2.7 2.7 3.0 3.4 3.1 2.3 3.0 2.5 2.6 3.0 2.6 2.3 2.7 3.0 2.9 2.9 2.5

5.8 6.2 5.6 5.9 6.1 6.3 6.1 6.4 6.6 6.8 6.7 6.0 5.7 5.5 5.5 5.8 6.0 5.4 6.0 6.7 6.3 5.6 5.5 5.5 6.1 5.8 5.0 5.6 5.7 5.7 6.2 5.1

6.7 6.9 5.0 5.7 4.9 6.7 4.9 5.7 6.0 4.8 4.9 5.6 5.8 6.1 6.4 5.6 5.1 5.6 6.1 5.6 5.5 4.8 5.4 5.6 5.1 5.1 5.9 5.7 5.2 5.0 5.2 5.4

2.2 2.3 1.5 2.3 2.0 2.0 1.8 2.1 1.8 1.8 1.8 2.1 1.6 1.9 2.0 2.2 1.5 1.4 2.3 2.4 1.8 1.8 2.1 2.4 2.3 1.9 2.3 2.5 2.3 1.9 2.0 2.3

3.8 2.6 2.2 3.2 2.8 2.8 2.7 3.3 3.2 2.8 3.0 2.8 3.0 2.8 3.8 2.8 2.8 2.6 3.0 3.4 3.1 3.0 3.1 3.1 3.1 2.7 3.2 3.3 3.0 2.5 3.0 3.4

7.7 7.7 6.0 6.9 5.6 7.7 6.3 6.7 7.2 6.2 6.1 6.4 7.2 7.4 7.9 6.4 6.3 6.1 7.7 6.3 6.4 6.0 6.9 6.7 6.9 5.8 6.8 6.7 6.7 6.3 6.5 6.2

Trang 13

4.1 1.3 2.8 5.7 5.1 1.8 3.0 5.9

Với dữ liệu trên chúng ta cần tìm những điểm biên cho sự phân biệt của hai

tổng thể, từ đó tìm ra quy luật để phân loại một phần tử mới

ii) Dựa vào bảng 1.2 ta có một nguyên tắc phân loại phần tử với biến x1

4.4

1≤

x

như sau:

Nếu thì xếp phần tử vào (Ve),

Nếu x1≥5.2 thì xếp phần tử vào (Vi),

Trang 14

Nếu 4.5≤ x1 ≤5.1 thì sử dụng tiếp biến x2

1.55

4 ≤ x1≤

để phân loại

Có 21 phần tử của (Ve) và 16 phần tử của (Vi) có Lập bảng phân phối

tần số cho 37 phần tử này với biến x2 ta có kết quả:

B ảng 1.3 Bảng phân phối tần số của x 2 v ới 4.5≤ x1 ≤5.1

x2 Số phần tử của (Ve) Số phần tử của (Vi)

Nếu x2 ≤1.44 thì xếp phần tử vào (Ve),

Nếu x2 ≥1.9 thì xếp phần tử vào (Vi),

Nếu 1.5≤ x2 ≤1.9 thì sử dụng tiếp biến x3

9.15

4 ≤ x1≤ Lập bảng phân phối tần số cho 22 phần tử này với biến x3 ta có kết quả:

B ảng 1.4 Bảng phân phối tần số của x 3 v ới 4.5≤ x1≤5.1 và 1.5≤ x2 ≤1.9

Trang 15

x thì xếp vào (Ve)

1.3

3<

x thì sử dụng tiếp biến x4

1.55

B ảng 1.5 Bảng phân phối tần số của x 4 v ới 4.5≤ x1 ≤5.1, 1.5≤ x2 ≤1.9, x3<3.1

Trang 16

4 ≥

x thì xếp vào (Ve),

3.5

4 ≤

x thì xếp vào (Vi),

3.64

5 ≤ x4 ≤ thì không biết xếp vào nhóm nào

v) Giả sử có một phần tử mới với biến quan sát

2.4

3.3

0.70

5.2

8.1

8.5

0

x thieo iv) ta xếp nó vào

nhóm (Ve)

1.2 PHƯƠNG PHÁP FISHER

Phương pháp này được giới thiệu lần đầu tiên bởi Fisher năm 1936 và có thể áp

dụng cho 2 tổng thể và nhiều hơn 2 tổng thể dựa trên số liệu rời rạc thu nhận được Phương pháp có ý nghĩa về t hực tế bởi sự đơn giản thuật toán của nó nên được ứng

dụng trong nhiều lĩnh vực khác nhau Hạn chế của phương pháp này là phải xem xét trên cơ sở ma trận hiệp phương sai của các tổng thể bằng nhau và không tính được xác

suất sai lầm trong bài toán phân loại và phân biệt

1.2 1 Phương pháp

i) Xét trong trường hợp 2 tổng thể w1 và w2

1

µ

với biến quan sát x có n chiều Gọi

và µ2 lần lượt là trung bình của w và 1 w theo bi2 ến x Giả sử ma trận hiệp phương

Trang 17

µ = µ là trung bình của w1

T 2y l 2

l l

T

T T

T

T T

y

y y

Σ

−

=Σ

−

=

2 1

2

2 2

1

2

12

1 µ +µ = µ −µ Σ µ +µ

y y

với biến quan sát x thì lu0 ật nhận dạng Fisher được thực hiện như sau:

X ếp phần tử mới vào w1 y =( − )TΣ− x ≥m

0

1 2 1

0 µ µ

ii) Xét trong trường hợp nhiều hơn 2 tổng thể w1, w2, w k

Σ

=Σ

=

=Σ

là véc tơ trung bình chung của các tổng thể theo biến y,

σy2 =l TΣl là phương sai giống nhau của các tổng thể theo biến y

Trang 18

Tương tự như trường hợp 2 tổng thể, để tìm hàm phân biệt tuyến tính y, chúng

ta tìm l để biểu thức sau đạt giá trị lớn nhất

l l

l B l l

l

l l

T o T T

k i

T i i

T k

i y

y iy

l l

l I B

T i

i i

λ

Fisher chứng minh biểu thức ( 1.3) đạt giá trị lớn nhất khi hệ số của vectơ l

được xác định:

Khi đó y i =l i T x, i≤ s được gọi là hàm phân biệt thứ i

Giả sử có r hàm phân biệt Fisher vừa tìm ở trên thì khoảng cách từ Y = y

i

T

j x l

1

2µ

Việc phân loại phần tử mới y theo phương pháp Fisher được thực hiện rất tự

nhiên: Xếp y vào tổng thể w n j ếu bình phương khoảng cách từ y tới µjy nhỏ hơn bình

phương khoảng cách từ y tới µiy với mọi i≠ Cj ụ thể:

T i

i x x

2

1)

Lúc này phần tử mới x sẽ được xếp vào w j nếu h j (x) nhỏ nhất Vì x T Σ x − 1

giống nhau cho tất cả h i (x) nên qui tắc nhận dạng được đơn giản như sau:

Xếp x và w n j ếu d j(x) = max{d i( )x} (1.4)

Trang 19

Trong thực tế, không có các tổng thể mà chỉ có dữ liệu mẫu rời rạc của các tổng

thể, vì vậy các tham số của tổng thể được thay thế bằng các tham số của mẫu Giả sử

i N n

1, , có ma trận

dữ liệu X mà c i ột thứ j là x G ij ọi S là ma tr i ận hiệp phương sai của tổng thể thứ i

n j ij i

i

x N

x n N

x

11

i x x x x

T i ij i ij k

i

i i

i

x x x x S

n W

1 1 1

))(

()

pooled

k n

W S

1

Lúc này ta sẽ thay thế µi bằng x , i µ bởi x và Σ bởi S pooled

Trong thực tế người ta cũng có thể gộp hai dữ liệu của hai tổng thể để tính ma trận

hiệp phương sai chung và chọn S pooled chính là ma trận này

1.2.2 Ví d ụ

Ví d ụ 1.2 Xét lại ví dụ trong phương pháp thống kê thứ tự Từ bảng 1.1 ta có thể tính

được các tham số thống kê của dữ liệu Versicolor và Vinigica như sau:

0

072.0216.0081.0179

0

040.0081.0097.0083

0

055.0179.0083.0261

048.0298.0070.0297.0

047.0070.0102.0092.0

048.0297.0092.0396.0

286.0675.0141.0499.0

079.0141.0110.0121.0

165.0499.0121.0435.0

S

Ma trận S được lấy làm ma trận hiệp phương chung của hai tổng thể

Từ số liệu trên ta có

Trang 20

Hàm phân biệt tuyến tính Fisher’s: ( )T 1

1 2

y= µ µ− Σ− X

1 2 3 4

0.001123 0.000489 0.001182 0.0010660.000489 0.000437 0.000499 0.0005380.652 0.204 1.292 0.7

0.001182 0.000499 0.001317 0.0012360.001066 0.000538 0.001236 0.001323

x x x x

4.2601.326

x

6.5882.974

5.5522.026

7.4

2.3

0.70

x

7.03.2

4.71.4

Vì y > 0 m nên ta sẽ xếp phần tử mới này vào tổng thể thứ nhất

Ví d ụ 1.3 cho 3 tổng thể ω1,ω2,ω3 với ma trận quan sát X ,1 X ,2 X và ma tr3 ận hiệp

phương sai S ,1 S2 S 3 như sau:

Trang 22

Chương 2 PHƯƠNG PHÁP BAYES

x=( 1, 2, , )∈ và

n

dx dx

dx

dx = 1 2 Hàm số f(x) xác định trên Rn

0)

f

được gọi là hàm mật độ xác suất n

chiều của đại lượng ngẫu nhiên liên tục X nếu nó thỏa hai điều kiện:

dx x

R x x

f

1)(

0)(

2.1.2 Phân phối chuẩn

Đại lượng ngẫu nhiên U được gọi là có phân phối chuẩn tắc 1 chiều nếu hàm mật

1)(

2

u u

22

12

exp2

1)

()

(

2π

Trong đó erf u = ∫u ( )−x dx

0

2exp

2)(

Trang 23

Cho µ tùy ý và σ >0, đặt X =µ+σU , khi đó đại lượng ngẫu nhiên X sẽ có

phân phối chuẩn với trung bìnhµ và phương sai σ2 (kí hiệu X ~ N(µ,σ2)) với hàm

1)

(

σ

µπ

σ

x x

i

u u u f

2 2

/ 2

1

2

1exp)

2(

1)

()

, ,,(

π

độc lập và mỗi biến ngẫu nhiên có phân phối chuẩn tắc, khi

đó đại lượng ngẫu nhiên U có phân phối chuẩn tắc n chiều nếu hàm mật độ xác suất

1exp)

2(

1)

1exp)

2(

1)

2.1.3 Ước lượng hàm mật độ xác suất

Để ước lượng hàm mật độ xác suất người ta sử dụng hai phương pháp chính:

Ước lượng tham số và ước lượng phi tham số Trong luận văn khi ước lượng tham số

ta sử dụn g phương pháp hợp lý cực đại và khi ước lượng phi tham số ta sử dụng

f

từ phân phối , nghĩa là L(θ)= f(x1, ,x n |θ) Phương pháp hợp lý cực đại là

phương pháp tổng quát cho ước lượng điểm với mục tiêu là xác định tham số θ sao

cho L(θ) là cực đại Điều này dẫn tới việc giải phương trình với ẩn số θ :

Trang 24

Trong điều kiện tổng quát ước lượng hợp lý cực đại là ước lượng vững, tiệm cận ước lượng hiệu quả Nó không phải là ước lượng không chệch mặc dù nó tiệm cận đến ước lượng này nếu phân phối tiệm cận có trung bình hữu hạn Đây được xem là phương pháp ước lượng tham số hiệu quả nhưng khó khăn chính là v iệc giải quyết phương trình (2.2)

i N

2

1exp)

2(

Σ

, N > n t ừ phân phối chuẩn n chiều có hàm

mật độ xác suất được cho bởi (2.1), hàm hợp lý được xác định như sau:

L là hàm của hai biến µ và Σ Giải quyết phương trình (2.2) với L ở trên chúng

x x

1

1ˆ

x

1

))(

(

1ˆ

Ước lượng hợp lý cực đại của µ là ước lượng không chệch, còn ước lượng hợp

lý cực đại của Σ là ước lượng chệch Trong thực tế người ta thường sử dụng ước lượng không chệch cho Σ , khi đó tham số này được ước lượng bởi công thức

i x x x x

1 -

))(

(

1ˆΣ

b) P hương pháp hàm hạt nhân

Ngoài phương pháp tham số, trong thống kê chúng ta cũng sử dụng rất phổ biến phương pháp phi tham số để ước lượng hàm mật độ xác suất Có nhiều phương pháp phi tham số khác nhau được sử dụng như phương pháp biểu đồ tần số, phương pháp

phần tử lân cận gần nhất,…trong đó phương pháp hàm hạt nhân được dánh giá có nhiều ưu điểm hơn Trong luận văn này, khi ước lượng phi tham số hàm mật độ xác

suất chúng tôi áp dụng phương pháp hàm hạt nhân

Gọi {x1,x2, ,x N} là tập dữ liệu quan sát để ước lượng hàm mật độ xác suất

i) Khi d ữ liệu quan sát 1 chiều

Hàm mật độ xác suất ước lượng có dạng

f

1

1)

Trang 25

dz z K

z K

Một số hàm hạt nhân thông thường được cho trong bảng 1.1

ii) Khi d ữ liệu quan sát n chiều

Trong trường hợp này hàm mật độ xác suất ước lượng có dạng là tích của các hàm mật độ xác suất ước lượng 1 chiều

x x K h

h h N

f

1 1 2

1

11)(

Trong đó,

h j là tham số trơn cho biến thứ j ,

K j(.) là hàm hạt nhân cho biến thứ j

Hàm hạt nhân và tham số trơn thường được chọn giống nhau cho tất cả các biến, khi

i n

h

x x K h

N

f

1 1

11)(

ˆ x

Chú ý:

1) Trong ước lượng hàm mật độ xác suất thì việc chọn tham số trơn h quan trọng hơn việc chọn hàm hạt nhân Giá trị của h càng lớn thì hàm mật độ xác suất ước

lượng càng trơn, nhưng khi đó hàm mật độ xác suất ước lượng sai lệch nhiều so

với thực tế Nhưng nếu h càng nhỏ thì hàm mật độ xác suất càng không trơn

Trong luận văn này khi ước lượng hàm mật độ xác suất bằng phương pháp hàm hạt nhân, chúng tôi chọn tham số trơn theo Scott (1992)

j n j

n N

1

)2(

= (2.4)

Với N là số phần tử mẫu và σj là độ lệch chuẩn mẫu theo biến thứ j

Trong trường hợp 1 chiều, tham số trơn trở thành

Trang 26

( ) 1 / 5 ( ) 1 / 5

5 / 1

06.13

Với σ là độ lệch chuẩn mẫu

2) Các hàm hạt nhân phổ biến được chọn theo đề xuất của Silverman (1986) và Scott (1992) trong bảng sau:

0

1khi

1)(

x

x x

x f

0

1khi

2

1)(

x

x x

1)(

2

x x

1khi

)1(16

15)(

2 2

x x

x f

0

1khi

)1(4

3)(

2

x

x x

x f

F ( ) chúng ta thường gặp f (x) không

có nguyên hàm hoặc nguyên hàm phức tạp Trong những trường hợp này người ta phải tính gần đúng nó Có nhiều cách để tính gần đúng tích phân Những phương pháp truyền thống cho việc tính tích phân số thường dựa trên ý nghĩa hình học Cụ thể

những phương pháp sau thường được sử dụng:

a) Phương pháp hình chữ nhật

Trang 27

=

∆

≈ 10)(

N i

i x x f

F Trong đó

N

a b

1)()

(2

được xác định giống như phương pháp hình chữ nhật Sai số trong phương pháp này có

c) Phương pháp Simpson một trên ba

Khi tính tích phân bội, các phương pháp vừa trình bày ở trên cũng có tốc độ hội

tụ về giá trị đúng giảm do nó tỷ lệ nghịch với số chiều Nếu sai số tính gần đúng tích phân có cấp độ ( )a

3

Trang 28

Điều này cũng có nghĩa để đảm bảo sai số trong tính tích phân nhiều chiều như trong trường hợp 1 chiều thì khối được chia đòi hỏi rất lớn Hơn nữa khi miền lấy tích phân

phức tạp rất khó thực hiện với 3 phương pháp trên Đây là hai lý do chính mà các phương pháp truyền thống tính gần đúng tích phân trong thực tế hầu như ít được sử

dụng trong tích phân bội

2.2.2 P hương pháp Monte Carlo

a) Phương pháp

Cho đến hiện tại, tích phân Monte Carlo là phương pháp tính gần đúng tích phân nhiều chiều hiệu quả nhất Nguyên lý cơ bản của nó là việc ước lượng tích phân của

một hàm số f trên một miền không gian nhiều chiều có biên phức tạp thông qua việc

tính giá trị trung bình của f tại các điểm có tọa độ ngẫu nhiên

Xét tích phân n chiều trên miền V: =∫

V

dx x f

x f N

V Vol I

1

)(ˆ

Vol(V) là độ đo của miền V

Theo luật mạnh của số lớn, khi thì Iˆ→ Ivới xác suất bằng 1 Vì vậy ta

có thể sử dụng Iˆ để làm giá trị xấp xỉ cho I

∑ ( )

=

i i

x f N

V Vol I

1

)(

(2.6)

Khi n=1, ta có tích phân một chiều =∫b

a

dx x f

x f N

a b I

1

(2.7)

Trong đó xi là các giá trị lấy ngẫu nhiên độc lập trên [a, b]

Khi tính tích phân hàm f trên m ột miền phức tạp W không dễ dàng tính được

diện tích, thể tích, …, công việc trước hết là đi tìm một miền V bao trùm miền W và

Trang 29

dễ lấy mẫu (V có hình dạng đơn giản như khối chữ nhật,…), sau đó ta gán giá trị của f

cụ thể đối với những điểm nằm trong W và gán cho f = 0 đối với những điểm nằm ngoài W nhưng vẫn nằm trong V Ở đây ta chọn V càng trùng khít với W thì việc ước

lượng kết quả của (1.17) càng tốt

x f N

f

1)(

f N

f Var

1

2 2

)(1

1)

f Var V

Vol I

Var

2 2 2

)]

([)()]

([)

Sai số của việc ước lượng tích phân

N V Vol I

)()

Như vậy sai số trong tính gần đúng tích phân bằng phương pháp Monte Carlo độc

lập với với số chiều Nó luôn có cấp độ 

1

N

O Xét tốc độ hội tụ về giá trị đúng

trong tính gần đúng, thì tích phân Monte Carlo hội tụ nhanh hơn phương pháp hình

chữ nhật khi số chiều lớn hơn 1, nhanh hơn phương pháp hình thang khi số chiều lớn hơn 4 và nhanh hơn phương pháp Simson khi số chiều lớn hơn 6 Nhưng trong thực tế tính toán, khi số chiều lớn hơn 1 và miền lấy tích phân phức tạp phương pháp tính gần đúng tích phân truyền thống rất phức tạp nên người ta hầu n hư chỉ sử dụng phương pháp tính tích phân Monte Carlo Phương pháp tính tích phân Monte Carlo có những thuận lợi và hạn chế sau:

Trang 30

H ạn chế:

- Khó xác định việc chọn mẫu như thế nào là tối ưu và số lượng bao nhiêu là

đủ theo yêu cầu cụ thể đặt ra Việc tính tích phân phụ thuộc rất lớn vào việc

chọn mẫu

- Sự hội tụ chậm Để giảm bớt phân nữa sai số người ta phải tăng số mẫu lấy lên gấp 4 lần

2.3 PHÂN LO ẠI VÀ PHÂN BIỆT CHO HAI TỔNG THỂ

2.3.1 Nguyên t ắc phân loại

i) Xét hai tổng thể w và 1 w v2 ới biến quan sát x trên n

R Gọi P(w i |x) là xác

suất để phần tử mới với biến quan sát x thuộc tổng thể thứ i, khi đó việc phân biệt hai

tổng thể được thực hiện đơn giản như sau:

Nếu P(w1|x)>P(w2 |x) thì xếp phần tử mới vào w1, ngược lại xếp vào

w2.

)

|(w x

)()

|()(

)

|()(2

1

x f

x f q w x f w P

w x f w

i

i i

i P w

q = là xác suất tiên nghiệm của tổng thể wi, q1 + q2

)

|()

()

1

)(

q

q x f

x

f >

(2.10)

Nguyên tắc (2.10) có thể viết lại dưới hình thức sau:

l(x) = xếp vào w1, ngược lại xếp vào w2 (2.11)

Định dạng
Số trang	61
Dung lượng	842,58 KB