Một số khái niệm mới và kết quả lý thuyết được thiết lập trong luận án liên quan đến bài toán phân biệt, phân loại và phân tích chùm các hàm mật độ xác suất.. Các kết quả liên quan đến
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-*** -
VÕ VĂN TÀI
SỬ DỤNG HÀM CỰC ĐẠI TRONG PHÂN TÍCH NHẬN DẠNG THỐNG KÊ
CHO NHIỀU TỔNG THỂ NHIỀU CHIỀU
Chuyên ngành : Lý thuyết xác suất và thống kê toán học
Trang 21 TỔNG QUAN CỦA LUẬN ÁN
1.1 Giới thiệu vấn đề nghiên cứu trong luận án
Xuất phát từ những đòi hỏi cần phải giải quyết trong
thực tế, bài toán nhận dạng ra đời Bài toán nhận dạng được phát triển theo hai hướng chính: Nhận dạng được giám sát và
nhận dạng không được giám sát Trong bài toán nhận dạng được giám sát, chúng ta biết rõ ràng về sự tách biệt của k tổng
thể, dựa vào đó tìm ra quy luật phân loại phần tử mới vào một
trong k tổng thể đã biết trước Thông thường trước đó người ta tìm ra quy luật để phân biệt k tổng thể ban đầu, tuy nhiên hai vấn đề này có thể giải quyết độc lập Nhận dạng nói chung và
nhận dạng được giám sát nói riêng gồm nhiều lĩnh vực khác
nhau Tuy nhiên trong luận án này, phần đầu chúng tôi chỉ giải quyết vấn đề quan trọng được đặt ra trong thống kê dưới hình
thức hai bài toán: bài toán phân biệt và bài toán phân loại
Bài toán phân biệt: Từ một tập hợp gồm các phần tử mà ta biết
rõ các phần tử đến từ tổng thể nào trong số k tổng thể, dựa trên
các biến quan sát từ mỗi phần tử cần tìm ra một quy luật để
phân chia chúng đúng như k tổng thể ban đầu
Bài toán phân loại: Với k tổng thể đã cho và một phần tử mới
có biến quan sát đã biết, cần tìm một quy luật tối ưu để xếp nó
vào tổng thể thích hợp nhất trong số k tổng thể đã biết trước
Trang 3Thông thường nếu tìm được những biểu thức giải tích
cụ thể cho bài toán phân biệt thì cũng sẽ giải quyết được bài toán phân loại và trong trường hợp này cả hai bài toán đặt ra
đều được giải quyết trọn vẹn Khi không tìm được quy luật cho
bài toán phân biệt, sử dụng hàm cực đại, chúng ta vẫn có thể giải quyết được bài toán phân loại Đó là đóng góp mới được
trình bày trong luận án này
Trong nhận dạng không được giám sát, cũng được gọi là phân tích chùm, chúng ta không có những dự kiến trước về sự
phân nhóm Tập các dữ liệu không biết đến từ bao nhiêu tổng thể, chúng ta cần phân chia những phần tử của tập hợp này thành những nhóm với những mức độ khác nhau, sao cho các phần tử trong cùng nhóm thì gần nhau theo một tiêu chí nào đó
và các phần tử khác nhóm nhau thì ít gần nhau hơn Việc xác định bao nhiêu nhóm được phân chia tùy thuộc vào tập dữ liệu hiện có và cũng tùy thuộc vào chủ quan của người thực hiện
Phân tích chùm được xem là sự mở rộng của bài toán phân loại
và phân biệt Với bài toán phân tích chùm, luận án này xét phần
tử là hàm mật độ xác suất
Hiện nay có nhiều nhà toán học quan tâm đến các bài toán này, tuy nhiên trong cách giải quyết nhiều khía cạnh vẫn chưa trọn vẹn Luận án này góp phần giải quyết một số khía cạnh chưa trọn vẹn đó Cụ thể, sử dụng hàm cực đại luận án đưa
Trang 4ra một công cụ thuận lợi và hiệu quả để giải quyết bài toán
phân loại và phân biệt và tạo ra một sự tiến bộ quan trọng về
mặt tính toán Hàm cực đại cũng sử dụng để giải quyết bài toán
chùm các hàm mật độ xác suất Một số khái niệm mới và kết quả lý thuyết được thiết lập trong luận án liên quan đến bài toán
phân biệt, phân loại và phân tích chùm các hàm mật độ xác
suất
1.2 Các kết quả liên quan đến luận án
Bài toán phân loại và phân biệt lần đầu tiên được đưa ra
bởi Fisher (1936) giải quyết cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt này chỉ được thiết lập khi ma trận hiệp phương sai của hai tổng thể bằng nhau Năm 1948, Rao đã mở rộng cho trường hợp nhiều hơn hai tổng thể, nhưng cũng trên cơ sở giả thiết ma trận hiệp phương sai các tổng thể bằng nhau Một phương pháp khác, đó là phương pháp thống kê thứ tự do Kendall (1975) đề nghị Nhưng đây chỉ là phương pháp mang tính chất thủ công, rất phức tạp
mà thực tế gần như không thể thực hiện được
Một số khía cạnh liên quan của bài toán phân loại và
phân biệt chưa được đề cập cho đến 1970 khi mà máy tính chưa
được phát triển Andrews (1972), Chen (1973), Young và Calvert (1974), Hand (1981), Devijer và Kittler (1982), Fukunaga (1990), McLachlan (1992), Webb (2002), đã tổng
Trang 5kết những kết quả đạt được của bài toán phân loại và phân biệt Dựa vào phương pháp Bayes họ đã đưa ra những tiêu chuẩn
khác nhau để phân loại và phân biệt như: Tiêu chuẩn phần tử
kế cận gần nhất, tiêu chuẩn độ rủi ro của sự phân loại, tiêu chuẩn Neyman-Pearson, tiêu chuẩn minimax, Ở đây xác suất
sai lầm của phân loại và phân biệt đã được xem xét Phương
pháp Bayes với các tiêu chuẩn đã nêu cho đến nay được xem có nhiều ưu điểm nhất vì đã giải quyết được yêu cầu đặt ra của bài toán: Tìm ra thuật toán, đồng thời đưa ra biểu thức tính sai số
phân loại và phân biệt Tuy nhiên vấn đề giải quyết chỉ mang
tính chất lý thuyết, việc tính toán thực tế hầu như chưa có sự tiến bộ nào đáng kể do tính chất phức tạp của các tiêu chuẩn,
hay tính tích phân,… Việc phân loại và phân biệt đặc biệt là
việc tính xác suất sai lầm cụ thể chỉ được thực hiện khi có các giả thiết về ma trận hiệp phương sai bằng nhau, về tính chuẩn của dữ liệu và hầu như chỉ xem xét cho trường hợp hai tổng thể Trong nỗ lực xét những vấn đề liên quan, nhóm tác giả Pham-Gia, T và Turkkan, N.và Bekker, A (2006) đã có những đóng
góp quan trọng trong việc xác định xác suất tiên nghiệm, tỷ lệ
trộn của hai tổng thể và sai số Bayes trong phân biệt hai tổng
thể Tuy nhiên việc phân loại và phân biệt, việc tính sai số
Bayes cho nhiều tổng thể, nhiều chiều cũng chưa được đề cập
Trang 6Trong bài toán phân tích chùm, dựa vào định nghĩa khoảng cách
của hai phần tử cũng như hai nhóm dữ liệu rời rạc Sibson (1973), Defays (1977), Rohlf (1982), …đã đưa ra hai thuật
toán cụ thể cho việc xây dựng chùm Các thuật toán này chỉ xây dựng chùm với các phần tử rời rạc Hạn chế chung của các
phương pháp này là đánh giá mức độ “gần” và “xa” của những phần tử trong cùng chùm và giửa các chùm với nhau chỉ đơn thuần dựa vào định nghĩa khoảng cách truyền thống mà không dựa vào sự phân bố của dữ liệu nên đôi lúc tạo ra nghịch lý cho
kết quả phân tích chùm: Phần tử đúng phải xếp vào chùm này
nhưng lại xếp vào chùm kia, hay ngược lại
Ở Việt Nam hầu như chưa có nhà toán học nào nghiên cứu sâu về các vấn đề trên Một số tác giả chỉ quan tâm đến khía cạnh ứng dụng của nó
1.3 Bố cục của luận án
Luận án gồm có phần mở đầu, phần nội dung, phần kết luận cùng với phụ lục, danh mục các công trình của tác giả và tài liệu tham khảo Phần nội dung gồm 5 chương: ngoài chương
1 là phần kiến thức cơ sở, các chương 2, 3, 4 và 5 là phần chính của luận án trình bày những đóng góp cho bài toán phân loại, phân biệt và phân tích chùm Phần phụ lục trình bày những tính toán chi tiết đã được nêu kết quả trong phần nội dung
Trang 72 NỘI DUNG CỦA LUẬN ÁN
2.1 Khoảng cách L1 của các hàm mật độ xác suất
Xét khoảng cách của k hàm mật độ xác suất
f1(x),f2(x), , f k(x), k2 Khi k = 2 có nhiều loại khoảng
cách khác nhau đã được sử dụng như khoảng cách Chernoff,
khoảng cách Divergence, khoảng cách Lp,… Khi k > 2 có khái
niệm được đưa ra để đánh giá mức độ tương đồng của các hàm số,đó là affinity của Matusita (1967), affinity của Toussaint (1972),… Thông thường các nhà toán học quan tâm đến
khoảng cách L p , đặc biệt là L2 Luận án quan tâm đến khoảng
cách L1 bởi vì nó nó được xem là gần gũi và tự nhiên nhất của
đại lượng khoảng cách Khoảng cách L1 của hai hàm mật độ xác suất đã được định nghĩa như sau:
n
R
d f f
f
f1, 2 1 1 x 2 x x
Khi có nhiều hơn hai hàm mật độ xác suất, khoảng cách L1 của chúng thật sự chưa được định nghĩa Luận án đã đưa ra công thức đánh giá mức độ gần của các hàm mật độ xác suất mà nó được xem như khoảng cách 1
Trang 8q
11),
1
,
0
( Khi đó khoảng cách của k hàm {fi(x)} và
{gi(x)} được định nghĩa như sau:
k d g
g g g
n
R k
1)(, ,
d f
Pe d f
R
L d
f f
f L
d
f
2
1)(,
) , ( )
Định lý 1 Ta có mối quan hệ giữa khoảng cách L1 của k hàm
g i ( x)với affinity của Toussaint các f i ( x) như sau:
Trang 9a)
k f
f f D q k
g g
g
k
j
k T
j k
), ,,(1
1
1, ,
,
1
) ( 2
1 1
j i T j i
k g
g
g
1
) 1 , ( 1
1 2
1
1 ),
1 , 0 (
g g k
i j
i
j
k g
g g k q g
g
b
1 1
2 1
1 min 1 , , , 1 ,,
j i j
k f
f f f
f
1 1
2 1
1 , , , 1 ,,
max
2
1
Trang 10
j i j
1 1
2 1
1 2 , , , ,,
Kết quả iii) chính là kết quả mà Glick (1973) đã đưa ra
2.2 Sử dụng hàm cực đại trong phân loại và phân biệt
Cho đến hiện tại có ba phương pháp chính để giải quyết bài toán phân loại và phân biệt: Phương pháp thống kê thứ tự, phương pháp Fisher và phương pháp Bayes Phương pháp Bayes có nhiều ưu điểm nhất, tuy nhiên trong việc áp dụng nó còn gặp rất nhiều khó khăn, đặc biệt là việc tính toán Luận án dựa trên phương pháp Bayes, với công cụ hàm cực đại đã giải quyết hiệu quả bài toán phân loại và phân biệt Các kết quả của phần này được trình bày trong [1] và [3]
2.2.1 Bài toán phân loại
Mục đích chính của bài toán phân loại là nhận biết được
phần tử mới xếp vào tổng thể nào trong số k tổng thể đã cho
, ,
điểm của Rn, với k tổng thể có hàm mật độ xác suất f i ( x)và
xác suất tiên nghiệmq i(0,1),
k
i i
Trang 11Trong đó (q)(q1,q2, ,q k), g i(x)q i f i(x)
Nguyên tắc này vừa đơn giản vừa tổng quát, đặc biệt hiệu quả hơn trong tính toán so với những nguyên tắc đã có Nguyên tắc này cũng tương đương với nguyên tắc Bayes bởi vì việc xác định những miền khác nhau cho mục đích phân loại của phương pháp Bayes cũng giống như việc xác định những miền khác nhau của định nghĩa gmax(x)
Khi ta không quan tâm đến xác suất tiên nghiệm hoặc xác suất tiên nghiệm bằng nhau cho các tổng thể thì nguyên tắc
trên trở thành: Nếu fmax(x0) f j(x0) thì xếp phần tử mới x 0
vào w j
Dựa vào nguyên tắc này việc tính toán để phân loại một phần tử trong luận án được thực hiện theo các hướng: Khảo sát hàm cực đại của hai hàm mật độ xác suất và chỉ ra biểu thức cụ thể khi chúng có phân phối thông dụng như phân phối mũ, phân phối Beta và phân phối chuẩn; viết chương trình tìm hàm cực đại của nhiều hơn hai hàm mật độ xác suất một chiều; viết chương trình phân loại phân loại phần tử mới trong tất cả các trường hợp Các chương trình được viết trên phần mềm Maple
Có thể nói khi biết hàm mật độ xác suất dựa vào nguyên tắc mới đã đưa ra bài toán phân loại đã được giải quyết trọn vẹn
Trang 122.2.2 Bài toán phân biệt
Khi tìm được hàm cực đại của các hàm mật độ xác suất
{fi(x)} cũng như hàm cực đại của các hàm {gi(x)} thì cũng giải
quyết được bài toán phân biệt Bởi vì biên nơi hàm cực đại nhận trên những miền khác nhau chính là hàm phân biệt Luận án khảo sát hàm phân biệt trong trường hợp một chiều và nhiều chiều Trong trường hợp một chiều, biên cho các tổng thể là các điểm Các điểm này được chỉ ra cụ thể cho các tổng thể có biến quan sát một chiều thông dụng như phân phối mũ, phân phối Beta và phân phối chuẩn Trong trường hợp nhiều chiều khi các tổng thể có biến quan sát chuẩn, hàm phân biệt được chỉ ra cụ thể là tuyến tính hoặc bậc hai tùy theo ma trận hiệp phương sai của các tổng thể bằng nhau hoặc khác nhau Khi không có phân phối chuẩn hàm phân biệt được chỉ ra cho từng trường hợp cụ thể
2.2.3 Sai số Bayes
Một vấn đề quan trọng trong việc giải quyết bài toán phân loại và phân biệt là tính xác suất sai lầm Sai lầm trong phương pháp Bayes được gọi là sai số Bayes Sai số Bayes đã được chứng minh là xác suất sai lầm nhỏ nhất trong bài toán phân loại và phân biệt Sử dụng hàm cực đại, luận án đã đưa ra
Trang 13một công thức tính sai số Bayes rất đơn giản và thuận lợi cho k tổng thể có hàm mật độ xác suất fi(x), xác suất tiên nghiệm (q) =(q1, q2,…, qk) như sau:
Luận án đã khảo sát việc tính sai số Bayes theo các hướng:Tìm biểu thức giải tích cụ thể cho sai số Bayes khi phân loại và phân biệt hai tổng thể có biến quan sát một chiều; viết chương trình tính sai số Bayes bằng phần mềm Maple khi phân loại và phân biệt nhiều hơn hai tổng thể Chương trình này được viết dựa trên việc tính được nguyên hàm của hàm cực đại trong trường hợp 1 chiều hoặc dựa trên việc tính tích phân bằng phương pháp Monte Carlo trong trường hợp nhiều chiều Ngoài
ra, luận án đã thiết lập hàm mật độ xác suất cho sai số Bayes qua tổng hai thành phần sai số khi giả sử chúng độc lập và có
phân phối trên khoảng
1 ,
0 trong phân loại và phân biệt hai tổng thể:
Định lý 3 Gọi X1 và X2 là hai thành phần của sai số Bayes,
Y là sai số Bayes, Y X1X2 Giả sử X1 và X2 là 2 đại
lượng ngẫu nhiên độc lập trên
1,
0 có hàm mật độ xác suất
Trang 14lần lượt f1(x) và f2(x), khi đó hàm mật độ xác suất của Y là:
1,0( khi 0
2
14
1 khi )()(
4
10
khi )()(
)(
4 1
4 1
2 1
0
2 1
y
y dt
t y f t f
y dt
t y f t f
y g
y
y
Hàm mật độ g(y) được thiết lập bởi những biểu thức giả tích cụ
thể khi xét hai thành phần sai số có phân phối thông dụng trên
0 như phân phối mũ, Beta và chuẩn
2.2.4 Mối quan hệ giữa các đại lượng trong bài toán phân loại và phân biệt
i) Trong phân loại và phân biệt hai tổng thể ta có các mối quan
d f
g g d g
d g
λ
2 , 1 )
Trang 15Định lý 4 Chúng ta có mối quan hệ của g1,g2, ,g k 1 với sai
số Bayes và hệ số chồng lấp của các {gi(x)} như sau:
) ( , , 2 , 1 1
2
1
11, ,
,
k g
( , , )
( , 1
2
l j i
k q
l i j
i
q j k
k g
2
2
1 2 1 1 , ,
Định lý 5 Chúng ta có những kết quả sau về sai số Bayes khi
quan tâm đến xác suất tiên nghiệm (q)(q1,q2, ,q k)
a) Pe1(,q2), ,k= ( )
, , , )
( , , )
(
l j i
k q
l i j
i
q j
i j
max2
11
d)
11
) / 1 ( , , 2 , 1 )
k k
Pe k k k k
Trang 162.2.5 Ví dụ
Minh họa việc sử dụng hàm cực đại giải quyết bài toán phân loại và phân biệt, luận án đã xét nhiều ví dụ trong 2 trường hợp: mô hình chuẩn và mô hình không chuẩn Với mô hình không chuẩn xét bài toán phân loại và phân biệt cho hai tổng
thể với biến quan sát Beta hai chiều Với mô hình chuẩn xét dữ
liệu rời rạc về hoa Iris gồm 3 loại: Setosa, Versicolor và Virginica Bốn biến được sử dụng là: chiều dài và chiều rộng của cánh hoa, chiều dài và chiều rộng của đài hoa Mỗi loại lấy
50 phần tử rời rạc, sau đó ước lượng hàm mật độ xác suất cho mỗi loại bằng phương pháp tham số và phi tham số (phương pháp hàm hạt nhân dạng chuẩn) Thực hiện phân loại và phân biệt cho 2 tổng thể và 3 tổng thể với hai biến và bốn biến, trong trường hợp ma trận hiệp phương sai của các tổng thể bằng nhau
và không bằng nhau Trong mỗi ví dụ việc tính toán gồm các
công việc sau: Tìm hàm phân biệt, đưa ra nguyên tắc phân loại, tính sai số Bayes, vẽ hình minh họa trong trường hợp một chiều
và hai chiều
Nhận xét: Khi sử dụng nhiều biến, ma trận hiệp phương sai
khác nhau bài toán phân loại, phân biệt sẽ tốt hơn vì sai số
Bayes của nó nhỏ hơn Trong phân loại hai tổng thể với bốn