Phương pháp phân tích phân biệt và phân loại cùng vớiphương pháp phân tích cụm là một trong những phương pháp xử lý dữliệu trong phân tích thống kê được sử dụng phổ biến.. Đối tượng nghi
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
LÊ THỊ TUYẾT NHUNG
PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI
VÀ PHÂN TÍCH CỤM
Chuyên ngành: Phương pháp Toán sơ cấp
Mã số: 60.46.01.13
LUẬN VĂN THẠC SĨ KHOA HỌC
Người hướng dẫn khoa học: TS LÊ VĂN DŨNG
Đà Nẵng - Năm 2016
Trang 2Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kì công trình nào khác
Tác giả
Lê Thị Tuyết Nhung
Trang 3MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục đích nghiên cứu 1
3 Đối tượng nghiên cứu 2
4 Phạm vi nghiên cứu 2
5 Phương pháp nghiên cứu 2
6 Bố cục đề tài 2
CHƯƠNG 1 KIẾN THỨC CHUẨN BỊ 3
1.1 VECTƠ VÀ MA TRẬN 3
1.1.1 Vectơ 3
1.1.2 Ma trận 4
1.1.3 Căn bậc hai của ma trận 7
1.1.4 Các bất đẳng thức ma trận và maximum 8
1.2 VECTƠ NGẪU NHIÊN 9
1.2.1 Hàm xác suất đồng thời 10
1.2.2 Vectơ trung bình và ma trận hiệp phương sai 11
1.2.3 Chia khối ma trận hiệp phương sai 14
1.2.4 Vectơ trung bình và ma trận hiệp phương sai của tổ hợp tuyến tính các vectơ ngẫu nhiên 15
1.3 PHÂN BỐ CHUẨN NHIỀU CHIỀU 16
1.4 VECTƠ TRUNG BÌNH MẪU, MA TRẬN HIỆP PHƯƠNG SAI MẪU 19
1.5 ƯỚC LƯỢNG KHÔNG CHỆCH 20
1.6 PHÂN BỐ MẪU TRUNG BÌNH MẪU 23
1.7 NHẬN DẠNG PHÂN BỐ CHUẨN NHIỀU CHIỀU 23
Trang 41.7.2 Kiểm định – bình phương 24
1.8 KIỂM ĐỊNH GIẢ THIẾT VỀ VECTƠ TRUNG BÌNH 25
CHƯƠNG 2 PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN
TÍCH CỤM 26
2.1 KHÁI NIỆM PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI 26
2.2 PHÂN LOẠI HAI LỚP 26
2.3 PHÂN LOẠI HAI LỚP CÓ PHÂN BỐ CHUẨN 31
2.3.1 31
2.3.2 37
2.4 ĐÁNH GIÁ HÀM PHÂN LOẠI 48
2.5 PHÂN LOẠI NHIỀU LỚP 44
2.6 ỨNG DỤNG CỦA PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI 51
2.7 KHÁI NIỆM PHÂN TÍCH CỤM 55
2.8 CÁC KHOẢNG CÁCH THƯỜNG DÙNG 56
2.9 PHƯƠNG PHÁP PHÂN CỤM THEO THỨ BẬC 60
2.9.1 Phương pháp phân cụm theo thứ bậc kết nối đơn 60
2.9.2 Phương pháp phân cụm theo thứ bậc kết nối đầy đủ 62
2.9.3 Phương pháp phân cụm theo thứ bậc kết nối trung bình 64
2.10 PHƯƠNG PHÁP PHÂN CỤM K- TRUNG BÌNH 66
2.11 ỨNG DỤNG CỦA PHÂN TÍCH CỤM 69
KẾT LUẬN 73
TÀI LIỆU THAM KHẢO 74 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao)
Trang 5Số hiệu Tên bảng Trang
Trang 6Số
Trang 7MỞ ĐẦU
1 Tính cấp thiết của đề tài
Ngày nay là thời đại của bùng nổ thông tin, sự phát triển của cácngành khoa học và đặc biệt là sự phát triển của ngành khoa học máy tính
đã giúp chúng ta thu thập được lượng dữ liệu rất khổng lồ Với một sốlượng dữ liệu lớn như vậy thì việc tìm hiểu thông tin từ đó là rất khó khăn
và phức tạp Vì vậy vấn đề xử lý số liệu không những được các ngành khoahọc nghiên cứu mà còn được cả xã hội quan tâm Đó cũng là lý do cho sự
ra đời và phát triển của ngành phân tích thống kê
Nhờ ứng dụng của bộ môn phân tích thống kê này mà các ngànhsinh học, y học, kinh tế, bảo hiểm, phân loại ảnh đã có nhiều bước pháttriển vượt bậc Phương pháp phân tích phân biệt và phân loại cùng vớiphương pháp phân tích cụm là một trong những phương pháp xử lý dữliệu trong phân tích thống kê được sử dụng phổ biến
Vì lý do đó, dưới sự hướng dẫn của thầy Lê Văn Dũng, tôi chọnnghiên cứu đề tài “Phân tích phân biệt, phân loại và phân tích cụm” làmluận văn thạc sĩ khoa học của mình
2 Mục đích nghiên cứu
Chúng tôi mong muốn tìm kiếm được nhiều tài liệu từ các nguồnkhác nhau, nghiên cứu kĩ các tài liệu đó, cố gắng lĩnh hội một số kỹ thuậtphân tích thống kê
Hy vọng luận văn có thể được sử dụng như một tài liệu tham khảo
bổ ích cho sinh viên các trường Đại học, Cao đẳng
Trang 83 Đối tượng nghiên cứu
- Kỹ thuật phân tích phân biệt và phân loại
- Kỹ thuật phân tích cụm
4 Phạm vi nghiên cứu
Luận văn nghiên cứu các khái niệm, định nghĩa, định lý liên quan
5 Phương pháp nghiên cứu
Cơ bản sử dụng phương pháp nghiên cứu tài liệu (sách, báo và cáctài liệu trên internet có liên quan đến đề tài của luận văn) để thu thậpthông tin nhằm hệ thống lại các vấn đề lý thuyết
6 Bố cục đề tài
Nội dung luận văn gồm hai chương:
Chương 1: Kiến thức chuẩn bị
Trình bày lại các kiến thức cần thiết cho chương 2, đó là các kiến thức vềvectơ, ma trận, biến ngẫu nhiên và phân bố chuẩn nhiều chiều
Chương 2: Phân tích phân biệt, phân loại và phân tích cụm
Trong chương này có hai nhiệm vụ chính: thứ nhất là giải quyết bài toánphân biệt, phân loại; thứ hai là giải quyết bài toán phân cụm Ở cả haibài toán, luận văn đều đưa ra lý thuyết, phương pháp giải và các ví dụminh họa đi kèm Tuy nhiên hai bài toán này có khá nhiều phương phápgiải quyết nên trong khuôn khổ luận văn chỉ có thể đề cập đến một vàiphương pháp phổ biến
Trang 9CHƯƠNG1 KIẾN THỨC CHUẨN BỊ
Trang 10- Ma trận hàng là ma trận chỉ có một hàng, kí hiệu A = [aij]1×n.
- Ma trận cột là ma trận chỉ có một cột, kí hiệu A = [aij]n×1
- Ma trận vuông là ma trận có số hàng bằng số cột, kí hiệu A =[aij]n×n = [aij]n Khi đó tập hợp các phần tử aii, i = 1, n được gọi làđường chéo chính của A
- Ma trận chuyển vị của ma trận A = [aij]n×p, kí hiệu AT, là ma
Trang 11trận AT = [bji]p×n với bji = aij.
- Ma trận đối xứng Ma trận vuông A = [aij]n là ma trận đối xứngnếu aij = aji
- Ma trận nghịch đảo Cho ma trận vuông A cấp n Nghịch đảo của
ma trận A là ma trận vuông A−1 cấp n sao cho
- Ma trận chéo Nếu ma trận vuôngA cấp ncó aij = 0với mọi i 6= j
thì A được gọi là ma trận chéo Nếu các phần tử trên đường chéo là aij
- Các giá trị riêng λ1, , λn là nghiệm của phương trình
Trang 12(λ1; e1), (λ2; e2), , (λn; en) với {e1, e2, , en} là hệ trực chuẩn thì ta đượcphân tích phổ
Phân tích phổ của A:
A = λ1e1eT1 + λ2e2eT2 + λ3e3eT3
Trang 13−1
√18
−4
√18
313
1
12
418
18
418
1618
9
19
1.1.3 Căn bậc hai của ma trận
ChoAnlà ma trận đối xứng, xác định không âm ĐặtPT = [e1, e2, , en],
λ1, ,√
λn).Phân tích phổ của A
Trang 14với giá trị max đạt được khi x = cB−1d với bất kỳ hằng số c 6= 0.
Maximum của dạng thức toàn phương trên hình cầu đơn vịGiả sử B > 0 cấp n với các giá trị riêng λ1 ≥ λ2 ≥ ≥ λn ≥ 0 và
Trang 15chuẩn của Rn Khi đó
1.2 VECTƠ NGẪU NHIÊN
Định nghĩa 1.2.1 Một không gian xác suất là một bộ ba(Ω, F , P ),với Ω là một tập bất kỳ, F là một σ−đại số các tập con của Ω, và P :
Định nghĩa 1.2.2 Cho không gian xác suất (Ω, F , P ) Ánh xạ
Định nghĩa 1.2.4 Cho Xij với i = 1, 2, , m; j = 1, 2, , n là
mn biến ngẫu nhiên cùng xác định trên không gian xác suất (Ω, F , P ) thì
Trang 16Định nghĩa 1.2.5 X được gọi là biến ngẫu nhiên rời rạc nếu X cóhàm phân phối F là hàm bước nhảy.
Định nghĩa 1.2.6 X được gọi là biến ngẫu nhiên liên tục nếu X
có hàm phân phối F là hàm liên tục tuyệt đối với độ đo Lebesgue củađường thẳng
tồn tại hàm số không âm f (x) xác định trên Rn sao cho với mọi A =[a1; b1] × [an; bn] ⊂ Rn,
P (X ∈ A) =
Z
A
f (x)dx
Định nghĩa 1.2.7 X1, X2, , Xn được gọi là các biến ngẫu nhiênđộc lập nếu P (X1 < x1, X2 < x2, , Xn < xn) = P (X1 < x1)P (X2 <
Trang 17Cho vectơ ngẫu nhiên X = (X1, X2, , Xn) Giả sử E(Xi) = µi là
kỳ vọng của Xi, V ar(Xi) = σii = E(Xi − µi)2 là phương sai của Xi và
Trang 18được gọi là ma trận hiệp phương sai.
Trang 201.2.3 Chia khối ma trận hiệp phương sai
Chia vectơ ngẫu nhiên X = (X1, X2, , Xn)T thành hai vectơ con p
chiều và n − p chiều như sau:
"X1
#
"Xp+1
Trang 21Nếu X1 và X2 là hai biến ngẫu nhiên, a và b là các số thực thì
(iii) Cov(aX1, bX2) = abσ12
Một cách tổng quát, nếu CT = [c1, c2, , cn] là vectơ các hằng số và XT =
Trang 22Khi đó E(CX) = CE(X), cov(CX) = Ccov(X)CT
1.3 PHÂN BỐ CHUẨN NHIỀU CHIỀU
Định nghĩa 1.3.1 Vectơ ngẫu nhiên X = [X1, X2, , Xp]T đượcgọi là có phân bố chuẩn p chiều với tham số µT = [µ1, µ2, , µp] và Σ =
Ví dụ 1.3.2 Xét mật độ chuẩn hai chiều với µ1 = E(X1), µ2 =
Trang 23Mệnh đề 1.3.3 Nếu Σ xác định dương thì Σ−1 tồn tại, hơn nữa
giá trị riêng - vectơ riêng của Σ−1
Chứng minh Giả sử (λ; e) là cặp giá trị riêng - vectơ riêng của Σ Ta có
Trang 24Tính chất 1.3 Nếu X có phân bố chuẩn Np(µ; Σ) thì với mọi
Yi2 là tổng bình phương của p biến ngẫu nhiên độc lập
có phân bố chuẩn một chiều N (0, 1) nên χ2 có phân bố χ− bình phươngvới p bậc tự do Do đó
Trang 251.4 VECTƠ TRUNG BÌNH MẪU, MA TRẬN HIỆP PHƯƠNGSAI MẪU
Giả sử x1, x2, ,xn là mẫu được chọn ngẫu nhiên từ tổng thể XT =
được gọi là ma trận hệ số tương quan mẫu
Ví dụ 1.4.1 Cho mẫu số liệu của XT = [X1, X2] như sau
Trang 26Tìm vectơ trung bình mẫu, ma trận hiệp phương sai mẫu, ma trận hệ sốtương quan mẫu.
Vậy vectơ trung bình mẫu, ma trận hiệp phương sai mẫu và ma trận hệ
số tương quan mẫu là:
x =
"23
1.5 ƯỚC LƯỢNG KHÔNG CHỆCH
E(X) = µ; E(S) = Σ
Như vậy
X là ước lượng không chệch của µ
S là ước lượng không chệch của Σ
Hệ quả 1.5.1 Cho X1, X2, , Xn là mẫu ngẫu nhiên từ phân bốđồng thời có vectơ trung bình µ và ma trận hiệp phương sai Σ Khi đó X
là một ước lượng không chệch của µ và ma trận hiệp phương sai của nó là
1
Trang 291.6 PHÂN BỐ MẪU TRUNG BÌNH MẪU
Định lý 1.6.1 Cho X = [Xij]n×p là mẫu ngẫu nhiên của tổngthể X có phân bố chuẩn p chiều Np(µ; Σ) Khi đó X có phân bố chuẩn
1.7 NHẬN DẠNG PHÂN BỐ CHUẨN NHIỀU CHIỀU
là mẫu được chọn ngẫu nhiên của XT = [X1, X2, , Xp]
Dựa vào mẫu số liệu trên để kiểm tra xem X có phân bố chuẩnkhông?
1.7.1 Sử dụng biểu đồ xác suất chuẩn
Ta có tính chất: nếu X có phân bố chuẩn p chiều Np(µ; Σ) thì cácthành phần của X là X1, X2, , Xp có phân bố chuẩn 1 chiều
Do đó nếu từ biểu đồ xác suất chuẩn của các thành phần x1, x2, ,
xp có thể chấp nhận X1, X2, , Xp có phân bố chuẩn 1 chiều thì lúc đó
ta có thể chấp nhận X có phân bố chuẩn
Trang 31- Khi đó có thể chứng tỏ rằng khi X có phân bố chuẩn N (µ, Σ) thì χ2 hội
tụ đến phân bố χ2m với m bậc tự do khi n → +∞
- Cho mức ý nghĩa α tra bảng phân bố χ2m(α) xác định bởi P (χ2m >
- Bác bỏ giả thiết X có phân bố chuẩn N (µ, Σ) nếu χ2 > χ2m(α)
1.8 KIỂM ĐỊNH GIẢ THIẾT VỀ VECTƠ TRUNG BÌNH
Định lý 1.8.1 Cho x = [xij]n×p là mẫu ngẫu nhiên của tổng thể
X có phân bố chuẩn p chiều Np(µ; Σ) Khi đó
Trang 32CHƯƠNG2 PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ
PHÂN TÍCH CỤM
2.1 KHÁI NIỆM PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI
Tiến hành phân loại là một trong những nhiệm vụ cơ bản của khoahọc để đưa thế giới về trật tự Và mục đích của phân loại là xác định xemmột đối tượng quan sát được sẽ xếp vào lớp nào
Khác với việc phân loại là phân tích phân biệt Phân tích phân biệt
là một kỹ thuật phân tích sử dụng cho việc phân biệt giữa các lớp
2.2 PHÂN LOẠI HAI LỚP
Giả sử tổng thể được phân hoạch thành hai lớp π1 và π2 và XT =
Kí hiệu Ω là miền giá trị của X R1 và R2 lần lượt là miền giá trị của X
giới hạn trên π1 và π2 Khi đó ta có Ω = R1 ∪ R2 và R1 ∩ R2 = ∅
Trang 33Ta cũng giả sử rằng f1(x) và f2(x) lần lượt là hàm mật độ của X
trên π1 và π2 (nếu X là vectơ rời rạc thì f1(x) và f2(x) là hàm xác suất)
Xác suất phân loại sai một đối tượng thuộc lớp π1 vào lớp π2 là
Như vậy,
P (một đối tượng w được xếp đúng vào lớp π1)
Trang 34P (một đối tượng w được xếp sai vào lớp π1)
P (một đối tượng w được xếp đúng vào lớp π2)
P (một đối tượng w được xếp sai vào lớp π2)
Kí hiệu c(2/1) là tổn thất gây ra khi xếp đối tượng thuộc lớp π1 vào lớp
Ta có ma trận tổn thất được cho như sau
Trang 35Giả sử hàm mật độ của đối tượng mới x0 có giá trị f1(x0) = 0, 3 và
Trang 36Ta thấy x0 ∈ R1 nên đối tượng mới x0 được xếp vào lớp π1.
Các trường hợp đặc biệt của miền E(CM)
Tổng xác suất phân loại sai (TPM)
đối tượng lớp π2)
lớp π2 bị phân loại sai)
Trang 372.3 PHÂN LOẠI HAI LỚP CÓ PHÂN BỐ CHUẨN
Giả sử f1(x), f2(x) là hàm mật độ của phân bố chuẩn lần lượt liênkết với lớp π1, π2 có vectơ trung bình µ1, µ2 và ma trận hiệp phương sai
p2
p1
(2.8)Ngược lại thì xếp x0 vào π2
Trang 38p1
Giả sử ta có n1 đối tượng của biến ngẫu nhiên nhiều chiều XT =
p Khi đó các ma trận dữ liệu tương ứng
Trang 39là một ước lượng không chệch của Σ nếu ma trận dữ liệu X1 và X2 lầnlượt chứa các mẫu ngẫu nhiên từ lớp π1 và lớp π2.
Thay x1 cho µ1, x2 cho µ2 và Sp cho Σ ta được quy tắc phân mẫu
Ước lượng E(CM) nhỏ nhất
p2
p1
(2.9)Ngược lại xếp x0 vào π2
Nếu trong 2.9 ta có
c(1/2)c(2/1)
ra những người tiềm ẩn bệnh máu khó đông loại A, người ta đã thử cácmẫu máu của hai nhóm phụ nữ và đo lường trên hai biến
Trang 40sau đó ghi lại kết quả ("AHF" biểu thị nhân tố chống đông máu).
Nhóm thứ nhất có n1 = 30 phụ nữ được chọn từ một nhóm những phụ nữkhông mang gen bệnh máu khó đông Nhóm này được gọi là nhóm bìnhthường (lớp π1)
Nhóm thứ hai có n2 = 22 phụ nữ được chọn từ những người liên quanđến bệnh này (những phụ nữ này có con gái bị bệnh; hoặc có ít nhất haingười con trai bị bệnh; hoặc có một người con trai bị bệnh kèm với người
họ hàng khác bị bệnh) Nhóm này được gọi là nhóm mang gen bệnh (lớp
π2)
Cặp đối tượng(x1, x2)của hai nhóm được biểu diễn trong Hình 2.3 Đườngviền trên hình vẽ lần lượt thể hiện 50% và 95% xác suất của phân bố chuẩnhai chiều xung quanh giá trị x¯1 và x¯2
log10(AHF kháng nguyên) của hai nhóm
Nhà điều tra cung cấp thông tin sau:
Trang 41Sử dụng công thức 2.9 cho trường hợp tổn thất phân loại sai bằngnhau và xác suất tiền nghiệm bằng nhau Tại xT0 = [−0, 210 −0, 044] tacó
Cho xác suất tiền nghiệm của hai lớp lần lượt p1 = 0, 75, p2 = 0, 25
và tổn thất phân loại sai c(1/2) = c(2/1), sử dụng thống kê phân loại
ˆ
2(¯x1 − ¯x2)TSp−1(¯x1 + ¯x2)
Trang 42Bình phương khoảng cách giữa hai trung bình mẫu của y
phương sai mẫu của y = (¯y1 − ¯y2)2
s2 y
Chứng minh Đặt d = (¯x1 − ¯x2), dựa trên bổ đề về maximum ta có
Trang 43Ví dụ 2.3.2 Cho tổn thất phân loại sai bằng nhau và xác suất tiền nghiệmbằng nhau thì ta có hàm phân biệt tuyến tính
ˆ
Hàm phân biệt tuyến tính này là hàm tuyến tính Fisher được dùng để tối
đa hóa phân cách hai lớp, và sự phân chia tối đa trong các mẫu là
Ta xem xét hàm mật độ trong 2.7 với Σ được thay bởi Σi, i = 1, 2
Do đó ma trận hiệp phương sai hay vectơ trung bình của hai lớp là khácnhau
Định lý 2.3.5 Cho lớp π1 và π2 được mô tả bởi hàm mật độ củaphân bố chuẩn lần lượt có vectơ trung bình µ1, µ2 và ma trận hiệp phươngsai Σ1, Σ2 Khi đó luật phân bổ tổn thất trung bình nhỏ nhất được cho nhưsau
p2
p1
(2.12)trong đó k = 1
Trang 44Ngược lại thì xếp x0 vào π2.
Trong thực tế, quy tắc phân loại được thực hiện bằng cách lần lượtthay µ1, µ2, Σ1, Σ2 bởi các đại lượng x1, x2, S1, S2
Quy tắc phân loại bậc hai
p2
p1
(2.13)Ngược lại thì xếp x0 vào π2
2.4 ĐÁNH GIÁ HÀM PHÂN LOẠI
Tầm quan trọng trong việc đánh giá quá trình phân loại là để tìm
ra "tỷ lệ lỗi" hay xác suất phân loại sai Như trong Ví dụ 2.4.1, khi chúng
ta biết rõ về các lớp thì xác suất phân loại sai có thể được tính tương đối
dễ dàng Nhưng vì việc xác định lớp rất khó khăn nên chúng ta chỉ có thểdựa vào tỷ lệ lỗi liên quan đến hàm phân loại mẫu Một khi hàm phân loạinày được hình thành thì việc đánh giá các mẫu tiếp theo là khả thi
Từ 2.5, tổng xác suất của phân loại sai là
2.8, với
ln
c(1/2)c(2/1)
Trang 46Do đó tỷ lệ lỗi tối ưu là
với Rˆ1 và Rˆ2 là miền phân loại xác định bởi mẫu có kích thước lần lượt là
n1 và n2 Chẳng hạn nếu hàm phân loại trong 2.9 được sử dụng thì miền
Trang 47phụ thuộc vào hàm mật độ f1(x) và f2(x) mà ta chưa biết Tuy nhiên ta
có thể tính ước lượng của các đại lượng liên quan với AER
Có một cách hiệu quả không phụ thuộc vào các lớp ban đầu mà cóthể dùng cho bất kỳ phương pháp phân loại nào Ta định nghĩa tỷ lệ lỗi
rõ ràng (AP ER) là tỷ lệ các đối tượng bị phân loại sai bởi hàm phân loạimẫu
đối tượng và lớpπ2 có n2 đối tượng thì ma trận nhầm lẫn có dạng như sau
n1C : Số các đối tượng lớp π1 xếp đúng vào lớp π1
n1M : Số các đối tượng lớp π1 xếp sai vào lớp π2
n2C : Số các đối tượng lớp π2 xếp đúng vào lớp π2
n2M : Số các đối tượng lớp π2 xếp sai vào lớp π1