Sử dụng hàm cực đại trong phân tích nhận dạng thống kê cho nhiều tổng thể nhiều chiều

Một số khái niệm mới và kết quả lý thuyết được thiết lập trong luận án liên quan đến bài toán phân biệt, phân loại và phân tích chùm các hàm mật độ xác suất.. Các kết quả liên quan đến

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-*** -

VÕ VĂN TÀI

SỬ DỤNG HÀM CỰC ĐẠI TRONG PHÂN TÍCH NHẬN DẠNG THỐNG KÊ

CHO NHIỀU TỔNG THỂ NHIỀU CHIỀU

Chuyên ngành : Lý thuyết xác suất và thống kê toán học

Trang 2

1 TỔNG QUAN CỦA LUẬN ÁN

1.1 Giới thiệu vấn đề nghiên cứu trong luận án

Xuất phát từ những đòi hỏi cần phải giải quyết trong

thực tế, bài toán nhận dạng ra đời Bài toán nhận dạng được phát triển theo hai hướng chính: Nhận dạng được giám sát và

nhận dạng không được giám sát Trong bài toán nhận dạng được giám sát, chúng ta biết rõ ràng về sự tách biệt của k tổng

thể, dựa vào đó tìm ra quy luật phân loại phần tử mới vào một

trong k tổng thể đã biết trước Thông thường trước đó người ta tìm ra quy luật để phân biệt k tổng thể ban đầu, tuy nhiên hai vấn đề này có thể giải quyết độc lập Nhận dạng nói chung và

nhận dạng được giám sát nói riêng gồm nhiều lĩnh vực khác

nhau Tuy nhiên trong luận án này, phần đầu chúng tôi chỉ giải quyết vấn đề quan trọng được đặt ra trong thống kê dưới hình

thức hai bài toán: bài toán phân biệt và bài toán phân loại

Bài toán phân biệt: Từ một tập hợp gồm các phần tử mà ta biết

rõ các phần tử đến từ tổng thể nào trong số k tổng thể, dựa trên

các biến quan sát từ mỗi phần tử cần tìm ra một quy luật để

phân chia chúng đúng như k tổng thể ban đầu

Bài toán phân loại: Với k tổng thể đã cho và một phần tử mới

có biến quan sát đã biết, cần tìm một quy luật tối ưu để xếp nó

vào tổng thể thích hợp nhất trong số k tổng thể đã biết trước

Trang 3

Thông thường nếu tìm được những biểu thức giải tích

cụ thể cho bài toán phân biệt thì cũng sẽ giải quyết được bài toán phân loại và trong trường hợp này cả hai bài toán đặt ra

đều được giải quyết trọn vẹn Khi không tìm được quy luật cho

bài toán phân biệt, sử dụng hàm cực đại, chúng ta vẫn có thể giải quyết được bài toán phân loại Đó là đóng góp mới được

trình bày trong luận án này

Trong nhận dạng không được giám sát, cũng được gọi là phân tích chùm, chúng ta không có những dự kiến trước về sự

phân nhóm Tập các dữ liệu không biết đến từ bao nhiêu tổng thể, chúng ta cần phân chia những phần tử của tập hợp này thành những nhóm với những mức độ khác nhau, sao cho các phần tử trong cùng nhóm thì gần nhau theo một tiêu chí nào đó

và các phần tử khác nhóm nhau thì ít gần nhau hơn Việc xác định bao nhiêu nhóm được phân chia tùy thuộc vào tập dữ liệu hiện có và cũng tùy thuộc vào chủ quan của người thực hiện

Phân tích chùm được xem là sự mở rộng của bài toán phân loại

và phân biệt Với bài toán phân tích chùm, luận án này xét phần

tử là hàm mật độ xác suất

Hiện nay có nhiều nhà toán học quan tâm đến các bài toán này, tuy nhiên trong cách giải quyết nhiều khía cạnh vẫn chưa trọn vẹn Luận án này góp phần giải quyết một số khía cạnh chưa trọn vẹn đó Cụ thể, sử dụng hàm cực đại luận án đưa

Trang 4

ra một công cụ thuận lợi và hiệu quả để giải quyết bài toán

phân loại và phân biệt và tạo ra một sự tiến bộ quan trọng về

mặt tính toán Hàm cực đại cũng sử dụng để giải quyết bài toán

chùm các hàm mật độ xác suất Một số khái niệm mới và kết quả lý thuyết được thiết lập trong luận án liên quan đến bài toán

phân biệt, phân loại và phân tích chùm các hàm mật độ xác

suất

1.2 Các kết quả liên quan đến luận án

Bài toán phân loại và phân biệt lần đầu tiên được đưa ra

bởi Fisher (1936) giải quyết cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt này chỉ được thiết lập khi ma trận hiệp phương sai của hai tổng thể bằng nhau Năm 1948, Rao đã mở rộng cho trường hợp nhiều hơn hai tổng thể, nhưng cũng trên cơ sở giả thiết ma trận hiệp phương sai các tổng thể bằng nhau Một phương pháp khác, đó là phương pháp thống kê thứ tự do Kendall (1975) đề nghị Nhưng đây chỉ là phương pháp mang tính chất thủ công, rất phức tạp

mà thực tế gần như không thể thực hiện được

Một số khía cạnh liên quan của bài toán phân loại và

phân biệt chưa được đề cập cho đến 1970 khi mà máy tính chưa

được phát triển Andrews (1972), Chen (1973), Young và Calvert (1974), Hand (1981), Devijer và Kittler (1982), Fukunaga (1990), McLachlan (1992), Webb (2002), đã tổng

Trang 5

kết những kết quả đạt được của bài toán phân loại và phân biệt Dựa vào phương pháp Bayes họ đã đưa ra những tiêu chuẩn

khác nhau để phân loại và phân biệt như: Tiêu chuẩn phần tử

kế cận gần nhất, tiêu chuẩn độ rủi ro của sự phân loại, tiêu chuẩn Neyman-Pearson, tiêu chuẩn minimax, Ở đây xác suất

sai lầm của phân loại và phân biệt đã được xem xét Phương

pháp Bayes với các tiêu chuẩn đã nêu cho đến nay được xem có nhiều ưu điểm nhất vì đã giải quyết được yêu cầu đặt ra của bài toán: Tìm ra thuật toán, đồng thời đưa ra biểu thức tính sai số

phân loại và phân biệt Tuy nhiên vấn đề giải quyết chỉ mang

tính chất lý thuyết, việc tính toán thực tế hầu như chưa có sự tiến bộ nào đáng kể do tính chất phức tạp của các tiêu chuẩn,

hay tính tích phân,… Việc phân loại và phân biệt đặc biệt là

việc tính xác suất sai lầm cụ thể chỉ được thực hiện khi có các giả thiết về ma trận hiệp phương sai bằng nhau, về tính chuẩn của dữ liệu và hầu như chỉ xem xét cho trường hợp hai tổng thể Trong nỗ lực xét những vấn đề liên quan, nhóm tác giả Pham-Gia, T và Turkkan, N.và Bekker, A (2006) đã có những đóng

góp quan trọng trong việc xác định xác suất tiên nghiệm, tỷ lệ

trộn của hai tổng thể và sai số Bayes trong phân biệt hai tổng

thể Tuy nhiên việc phân loại và phân biệt, việc tính sai số

Bayes cho nhiều tổng thể, nhiều chiều cũng chưa được đề cập

Trang 6

Trong bài toán phân tích chùm, dựa vào định nghĩa khoảng cách

của hai phần tử cũng như hai nhóm dữ liệu rời rạc Sibson (1973), Defays (1977), Rohlf (1982), …đã đưa ra hai thuật

toán cụ thể cho việc xây dựng chùm Các thuật toán này chỉ xây dựng chùm với các phần tử rời rạc Hạn chế chung của các

phương pháp này là đánh giá mức độ “gần” và “xa” của những phần tử trong cùng chùm và giửa các chùm với nhau chỉ đơn thuần dựa vào định nghĩa khoảng cách truyền thống mà không dựa vào sự phân bố của dữ liệu nên đôi lúc tạo ra nghịch lý cho

kết quả phân tích chùm: Phần tử đúng phải xếp vào chùm này

nhưng lại xếp vào chùm kia, hay ngược lại

Ở Việt Nam hầu như chưa có nhà toán học nào nghiên cứu sâu về các vấn đề trên Một số tác giả chỉ quan tâm đến khía cạnh ứng dụng của nó

1.3 Bố cục của luận án

Luận án gồm có phần mở đầu, phần nội dung, phần kết luận cùng với phụ lục, danh mục các công trình của tác giả và tài liệu tham khảo Phần nội dung gồm 5 chương: ngoài chương

1 là phần kiến thức cơ sở, các chương 2, 3, 4 và 5 là phần chính của luận án trình bày những đóng góp cho bài toán phân loại, phân biệt và phân tích chùm Phần phụ lục trình bày những tính toán chi tiết đã được nêu kết quả trong phần nội dung

Trang 7

2 NỘI DUNG CỦA LUẬN ÁN

2.1 Khoảng cách L1 của các hàm mật độ xác suất

Xét khoảng cách của k hàm mật độ xác suất

f1(x),f2(x), , f k(x), k2 Khi k = 2 có nhiều loại khoảng

cách khác nhau đã được sử dụng như khoảng cách Chernoff,

khoảng cách Divergence, khoảng cách Lp,… Khi k > 2 có khái

niệm được đưa ra để đánh giá mức độ tương đồng của các hàm số,đó là affinity của Matusita (1967), affinity của Toussaint (1972),… Thông thường các nhà toán học quan tâm đến

khoảng cách L p , đặc biệt là L2 Luận án quan tâm đến khoảng

cách L1 bởi vì nó nó được xem là gần gũi và tự nhiên nhất của

đại lượng khoảng cách Khoảng cách L1 của hai hàm mật độ xác suất đã được định nghĩa như sau:

     

n

R

d f f

f

f1, 2 1 1 x 2 x x

Khi có nhiều hơn hai hàm mật độ xác suất, khoảng cách L1 của chúng thật sự chưa được định nghĩa Luận án đã đưa ra công thức đánh giá mức độ gần của các hàm mật độ xác suất mà nó được xem như khoảng cách 1

Trang 8

q

11),

1

,

0

( Khi đó khoảng cách của k hàm {fi(x)} và

{gi(x)} được định nghĩa như sau:

k d g

g g g

n

R k

1)(, ,

d f

Pe d f

R

L d

f f

f L

d

f

2

1)(,

) , ( )

Định lý 1 Ta có mối quan hệ giữa khoảng cách L1 của k hàm

g i ( x)với affinity của Toussaint các f i ( x) như sau:

Trang 9

a)

k f

f f D q k

g g

g

k

j

k T

j k

), ,,(1

1

1, ,

,

1

) ( 2

1 1

j i T j i

k g

g

1

) 1 , ( 1

1 2

1

1 ),

1 , 0 (

g g k

i j

i

j

k g

g g k q g

g

b

1 1

2 1

1 min 1 , , , 1 ,,

j i j

k f

f f f

f

1 1

2 1

1 , , , 1 ,,

max

2

1

Trang 10

j i j

1 1

2 1

1 2 , , , ,,

Kết quả iii) chính là kết quả mà Glick (1973) đã đưa ra

2.2 Sử dụng hàm cực đại trong phân loại và phân biệt

Cho đến hiện tại có ba phương pháp chính để giải quyết bài toán phân loại và phân biệt: Phương pháp thống kê thứ tự, phương pháp Fisher và phương pháp Bayes Phương pháp Bayes có nhiều ưu điểm nhất, tuy nhiên trong việc áp dụng nó còn gặp rất nhiều khó khăn, đặc biệt là việc tính toán Luận án dựa trên phương pháp Bayes, với công cụ hàm cực đại đã giải quyết hiệu quả bài toán phân loại và phân biệt Các kết quả của phần này được trình bày trong [1] và [3]

2.2.1 Bài toán phân loại

Mục đích chính của bài toán phân loại là nhận biết được

phần tử mới xếp vào tổng thể nào trong số k tổng thể đã cho

, ,

điểm của Rn, với k tổng thể có hàm mật độ xác suất f i ( x)và

xác suất tiên nghiệmq i(0,1),



k

i i

Trang 11

Trong đó (q)(q1,q2, ,q k), g i(x)q i f i(x)

Nguyên tắc này vừa đơn giản vừa tổng quát, đặc biệt hiệu quả hơn trong tính toán so với những nguyên tắc đã có Nguyên tắc này cũng tương đương với nguyên tắc Bayes bởi vì việc xác định những miền khác nhau cho mục đích phân loại của phương pháp Bayes cũng giống như việc xác định những miền khác nhau của định nghĩa gmax(x)

Khi ta không quan tâm đến xác suất tiên nghiệm hoặc xác suất tiên nghiệm bằng nhau cho các tổng thể thì nguyên tắc

trên trở thành: Nếu fmax(x0)  f j(x0) thì xếp phần tử mới x 0

vào w j

Dựa vào nguyên tắc này việc tính toán để phân loại một phần tử trong luận án được thực hiện theo các hướng: Khảo sát hàm cực đại của hai hàm mật độ xác suất và chỉ ra biểu thức cụ thể khi chúng có phân phối thông dụng như phân phối mũ, phân phối Beta và phân phối chuẩn; viết chương trình tìm hàm cực đại của nhiều hơn hai hàm mật độ xác suất một chiều; viết chương trình phân loại phân loại phần tử mới trong tất cả các trường hợp Các chương trình được viết trên phần mềm Maple

Có thể nói khi biết hàm mật độ xác suất dựa vào nguyên tắc mới đã đưa ra bài toán phân loại đã được giải quyết trọn vẹn

Trang 12

2.2.2 Bài toán phân biệt

Khi tìm được hàm cực đại của các hàm mật độ xác suất

{fi(x)} cũng như hàm cực đại của các hàm {gi(x)} thì cũng giải

quyết được bài toán phân biệt Bởi vì biên nơi hàm cực đại nhận trên những miền khác nhau chính là hàm phân biệt Luận án khảo sát hàm phân biệt trong trường hợp một chiều và nhiều chiều Trong trường hợp một chiều, biên cho các tổng thể là các điểm Các điểm này được chỉ ra cụ thể cho các tổng thể có biến quan sát một chiều thông dụng như phân phối mũ, phân phối Beta và phân phối chuẩn Trong trường hợp nhiều chiều khi các tổng thể có biến quan sát chuẩn, hàm phân biệt được chỉ ra cụ thể là tuyến tính hoặc bậc hai tùy theo ma trận hiệp phương sai của các tổng thể bằng nhau hoặc khác nhau Khi không có phân phối chuẩn hàm phân biệt được chỉ ra cho từng trường hợp cụ thể

2.2.3 Sai số Bayes

Một vấn đề quan trọng trong việc giải quyết bài toán phân loại và phân biệt là tính xác suất sai lầm Sai lầm trong phương pháp Bayes được gọi là sai số Bayes Sai số Bayes đã được chứng minh là xác suất sai lầm nhỏ nhất trong bài toán phân loại và phân biệt Sử dụng hàm cực đại, luận án đã đưa ra

Trang 13

một công thức tính sai số Bayes rất đơn giản và thuận lợi cho k tổng thể có hàm mật độ xác suất fi(x), xác suất tiên nghiệm (q) =(q1, q2,…, qk) như sau:

Luận án đã khảo sát việc tính sai số Bayes theo các hướng:Tìm biểu thức giải tích cụ thể cho sai số Bayes khi phân loại và phân biệt hai tổng thể có biến quan sát một chiều; viết chương trình tính sai số Bayes bằng phần mềm Maple khi phân loại và phân biệt nhiều hơn hai tổng thể Chương trình này được viết dựa trên việc tính được nguyên hàm của hàm cực đại trong trường hợp 1 chiều hoặc dựa trên việc tính tích phân bằng phương pháp Monte Carlo trong trường hợp nhiều chiều Ngoài

ra, luận án đã thiết lập hàm mật độ xác suất cho sai số Bayes qua tổng hai thành phần sai số khi giả sử chúng độc lập và có

phân phối trên khoảng 

1 ,

0 trong phân loại và phân biệt hai tổng thể:

Định lý 3 Gọi X1 và X2 là hai thành phần của sai số Bayes,

Y là sai số Bayes, Y  X1X2 Giả sử X1 và X2 là 2 đại

lượng ngẫu nhiên độc lập trên 

1,

0 có hàm mật độ xác suất

Trang 14

lần lượt f1(x) và f2(x), khi đó hàm mật độ xác suất của Y là:

1,0( khi 0

2

14

1 khi )()(

4

10

khi )()(

)(

4 1

2 1

0

2 1

y

y dt

t y f t f

y dt

t y f t f

y g

y

Hàm mật độ g(y) được thiết lập bởi những biểu thức giả tích cụ

thể khi xét hai thành phần sai số có phân phối thông dụng trên

0 như phân phối mũ, Beta và chuẩn

2.2.4 Mối quan hệ giữa các đại lượng trong bài toán phân loại và phân biệt

i) Trong phân loại và phân biệt hai tổng thể ta có các mối quan

d f

g g d g

d g

λ

2 , 1 )

Trang 15

Định lý 4 Chúng ta có mối quan hệ của g1,g2, ,g k 1 với sai

số Bayes và hệ số chồng lấp của các {gi(x)} như sau:

) ( , , 2 , 1 1

2

1

11, ,

,

k g

( , , )

( , 1

2

l j i

k q

l i j

i

q j k

k g

2

1 2 1 1 , ,

Định lý 5 Chúng ta có những kết quả sau về sai số Bayes khi

quan tâm đến xác suất tiên nghiệm (q)(q1,q2, ,q k)

a) Pe1(,q2), ,k=   ( )

, , , )

( , , )

(

l j i

k q

l i j

i

q j

i j

max2

11

d)

11

) / 1 ( , , 2 , 1 )

k k

Pe k k k k

Trang 16

2.2.5 Ví dụ

Minh họa việc sử dụng hàm cực đại giải quyết bài toán phân loại và phân biệt, luận án đã xét nhiều ví dụ trong 2 trường hợp: mô hình chuẩn và mô hình không chuẩn Với mô hình không chuẩn xét bài toán phân loại và phân biệt cho hai tổng

thể với biến quan sát Beta hai chiều Với mô hình chuẩn xét dữ

liệu rời rạc về hoa Iris gồm 3 loại: Setosa, Versicolor và Virginica Bốn biến được sử dụng là: chiều dài và chiều rộng của cánh hoa, chiều dài và chiều rộng của đài hoa Mỗi loại lấy

50 phần tử rời rạc, sau đó ước lượng hàm mật độ xác suất cho mỗi loại bằng phương pháp tham số và phi tham số (phương pháp hàm hạt nhân dạng chuẩn) Thực hiện phân loại và phân biệt cho 2 tổng thể và 3 tổng thể với hai biến và bốn biến, trong trường hợp ma trận hiệp phương sai của các tổng thể bằng nhau

và không bằng nhau Trong mỗi ví dụ việc tính toán gồm các

công việc sau: Tìm hàm phân biệt, đưa ra nguyên tắc phân loại, tính sai số Bayes, vẽ hình minh họa trong trường hợp một chiều

và hai chiều

Nhận xét: Khi sử dụng nhiều biến, ma trận hiệp phương sai

khác nhau bài toán phân loại, phân biệt sẽ tốt hơn vì sai số

Bayes của nó nhỏ hơn Trong phân loại hai tổng thể với bốn

Định dạng
Số trang	25
Dung lượng	344,76 KB