Vì vậy việc nghiên cứu những cơ sở của các phương pháp khác nhau để giải quyết bài toán phân lớp khách quan, không phụ thuộc vào các quan điểm chủ quan, mà chỉ phụ thuộc vào chính sự biể
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
Trang 3LỜI CẢM ƠN
Để hoàn thành khóa luận này, em xin được bày tỏ lòng biết ơn sâu sắc
đến thầy PGS.TS Trần Trọng Nguyên – Người trực tiếp tận tình hướng
dẫn, chỉ bảo và định hướng cho em trong suốt quá trình em nghiên cứu khóa luận của mình Đồng thời em cũng xin chân thành cảm ơn Ban chủ nhiệm khoa Toán, các thầy cô trong tổ Toán ứng dụng và các thầy cô trong khoa Toán – Trường Đại học Sư phạm Hà Nội 2 đã tạo điều kiện cho em hoàn thành tốt khóa luận này để có kết quả như ngày hôm nay
Mặc dù đã có rất nhiều cố gắng, song thời gian nghiên cứu và kinh nghiệm bản thân còn nhiều hạn chế nên khóa luận không thể tránh khỏi những thiếu sót rất mong nhận được sự đóng góp ý kiến của các thầy cô, các bạn sinh viên và bạn đọc
Em xin chân thành cảm ơn!
Hà Nội, 20 tháng 5 năm 2019
Sinh viên thực hiện
Nguyễn Đăng Đức
Trang 4LỜI CAM ĐOAN
Em xin cam đoan khóa luận này là kết quả của việc nghiên cứu và nỗ
lực học tập của bản thân dưới sự hướng dẫn của thầy PGS.TS Trần Trọng Nguyên, nội dung khóa luận không trùng lặp với kết quả của đề tài khác
Trong khi nghiên cứu, hoàn thành bản khóa luận này em đã tham khảo một số tài liệu đã ghi trong phần tài liệu tham khảo
Em xin chịu hoàn toàn trách nhiệm về lời cam đoan này!
Hà Nội, 20 tháng 5 năm 2019
Sinh viên thực hiện
Nguyễn Đăng Đức
Trang 5MỤC LỤC
LỜI MỞ ĐẦU 1
1 Lí do chọn đề tài 1
2 Mục đích nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp và công cụ nghiên cứu 2
5 Cấu trúc khóa luận 2
Chương 1: ĐỘ ĐO KHOẢNG CÁCH 3
1.1 Khoảng cách 3
1.1.1 Độ đo khác biệt 3
1.1.2 Độ đo tương tự (với các biến tần số) 4
1.1.3 Độ đo tương tự (cho các biến nhị phân) 5
1.1.4 Độ đo hỗn hợp 6
1.2 Khoảng cách giữa các nhóm 9
1.2.1 Liên kết trung bình 9
1.2.2 Liên kết đơn 9
1.2.3 Liên kết đầy đủ 10
1.3 Một số vấn đề tổ hợp trong phân lớp 10
1.3.1 Số cách phân chia tập n cá thể thành các lớp k các thể 10
1.3.2 Tổng số cách chia n cá thể 11
1.3.3 Lựa chọn số lớp tối ưu 11
Chương 2: PHƯƠNG PHÁP PHÂN LỚP 13
2.1 Phân lớp không thứ bậc 13
2.1.1 Các phương pháp kiểu đám mây động trong không gian Ơ cơ lit 13
Trang 62.1.1.1 Quán tính giữa các lớp và trong từng lớp 14
2.1.1.2 Thuật toán K-means cluster 15
2.1.1.3 Lựa chọn k tâm nhóm 16
2.1.1.4 Khắc phục suy biến 17
2.1.2 Phân lớp với các biến nhị phân 19
2.1.2.1 Phương pháp tuần tự 20
2.1.2.2 Phương pháp Ward 20
2.2 Phân lớp thứ bậc 23
2.2.1 Tiêu chuẩn quán tính và phương pháp Ward 25
2.1.1.1 Mức giảm quán tính khi ghép lớp và khoảng cách giữa hai lớp 25
2.1.1.2 Chọn số lớp 26
2.3 Phương pháp phân lớp hai bước 28
2.3.1 Phương pháp two-step cluster 28
2.3.2 Thí dụ và phân tích kết quả 29
2.3.2.1 Dữ liệu – mô hình và thủ tục 29
2.3.2.2 Kết quả chính 32
Chương 3: BÀI TOÁN PHÂN LỚP TRÊN SPSS 36
3.1 Thủ tục K – Means Cluster 36
3.2 Phân lớp có thứ bậc các các thể 39
KẾT LUẬN 45
TÀI LIỆU THAM KHẢO 46
Trang 71
LỜI MỞ ĐẦU
1 Lí do chọn đề tài
Phân lớp (hay phân nhóm) là một trong những bài toán được quan tâm
từ rất sớm trong lịch sử Từ xa xưa người ta đã tiến hành phân lớp trong mọi lĩnh vực Trong trường hợp tổng thể chỉ có một đặc trưng việc phân lớp hoàn toàn hình thành tự động hay theo một quan điểm chủ quan nào đó Ngay trong trường hợp chỉ dùng một đặc trưng, ý tưởng phân lớp đã rõ ràng và nó cũng mặc nhiên vượt khỏi giới hạn tổng thể 1 đặc trưng Chẳng hạn, khi quan sát, nghiên cứu thu thập của cư dân Cho dù các điều kiện xã hội, kinh tế, chính trị cũng như các điều kiện khác là thuần nhất thì người nghiên cứu thu thập với mục đích tìm thị trường cho một loại hàng (kể cả hàng thiết yếu như lương thực, thực phẩm, may mặc,…) cũng thường trực một ý niệm là mức hay tỷ lệ chi cho tiêu dùng mặt hàng mà họ quan tâm có thể khác nhau theo giới Tổng thể mặc nhiên được phân lớp: Nam và Nữ Có rất nhiều bài toán phân lớp tự bộc lộ lời giải ngay trong quá trình vận động của tổng thể Sẽ không ai thắc mắc giới tính của cư dân lại chia 2 lớp, hàng hóa lại chia thành thiết yếu, thông thường và xa xỉ cũng như cách phân chia chúng trong mọi thời đại Tuy nhiên, khi mỗi cá thể của tổng thể có quá nhiều đặc trưng nhất là có nhiều đặc trưng mới mà ta không thể hiểu cặn kẽ: khi chính các đặc trưng này lại vận động trong mối quan hệ tác động qua lại đồng thời thì việc phân lớp trở thành vấn đề phức tạp Có thể thấy vấn đề không chỉ giới hạn ở việc có quá nhiều đặc trưng cho mỗi cá thể mà chính trong điều kiện này không thể áp đặt một quan niệm hay mục đích chủ quan trong việc phân lớp Vì vậy việc nghiên cứu những cơ sở của các phương pháp khác nhau để giải quyết bài toán phân lớp khách quan, không phụ thuộc vào các quan điểm chủ quan, mà chỉ phụ thuộc vào chính sự biểu hiện của các cá thể trong quá trình vận động của chúng
Trang 82
Hơn nữa tiêu chuẩn cao nhất trong phân lớp một tổng thể là tạo ra các lớp (tập con) với sự thuần nhất tối đa có thể trong từng lớp cũng như sự khác biệt tối đa của các cá thể khác lớp
Thấy được ý nghĩa quan trọng của sự phân tích lớp kinh tế và trên thực
tế chưa có nhiều đề tài nghiên cứu vấn đề này nên dưới sự hướng dẫn của
thầy PGS.TS Trần Trọng Nguyên em lựa chọn đề nghiên cứu cho khóa
luận tốt nghiệp của mình là:
“PHÂN TÍCH LỚP VÀ ỨNG DỤNG”
2 Mục đích nghiên cứu
✓ Cơ sở lý thuyết về độ đo khoảng cách
✓ Cơ sở lý thuyết về phân tích lớp
✓ Ứng dụng phần mềm thống kê SPSS để giải các bài toán về phân tích lớp
3 Đối tượng và phạm vi nghiên cứu
✓ Đối tượng nghiên cứu: Các khái niệm cơ bản được sử dụng trong các bài toán phân lớp với sự trợ giúp của SPSS
✓ Phạm vi nghiên cứu: Các dạng toán phân lớp và ứng dụng và một số bài toán
4 Phương pháp và công cụ nghiên cứu
✓ Phần mềm SPSS
✓ Nghiên cứu tổng hợp, thống kê, liệt kê, so sánh
✓ Phân tích dữ liệu
5 Cấu trúc khóa luận
✓ Ngoài phần mở đầu khóa luận và tài liệu tham khảo Nội dung nghiên cứu của khóa luận dự kiến gồm 3 chương:
Chương 1: Độ đo khoảng cách
Chương 2: Phương pháp phân lớp
Chương 3: Bài toán toán phân lớp trên SPSS
Trang 93
CHƯƠNG 1: ĐỘ ĐO KHOẢNG CÁCH
Chương này chủ yếu trình bày về các khái niệm, tính chất và các kiến thức liên quan để phục vụ cho nội dung chính ở chương 2 và chương 3
1.1.1 Độ đo khác biệt
Xét tập n các thể, mỗi các thể có thể đặc trưng bởi p đặc trưng (biến)
Gọi E là tập các cá thể cần phân lớp
Khoảng cách đo bằng độ khác biệt giữa cá thể i và cá thể j là một số
thực ( , )d i j thỏa mãn các điều kiện
Trang 104
2 2
1
( , )
m
ij kj j
1.1.2 Độ đo tương tự (với các biến tần số)
Với các biến tần số hay số đếm, người ta sử dụng các khoảng cách tương đối đặc biệt Đó là khoảng cách Khi-bình phương và Phi
Trang 115
1.1.3 Độ đo tương tự (cho tập các biến nhị phân)
Độ tương tự (chỉ số tương tự) của i và j là số thực ( , ) s i j được xác
định thỏa mãn các điều kiện sau
Một số chỉ số được tính như sau
Nếu ta có n các thể được thể hiện bởi p (đặc trưng) biến định tính, ta
có thể xem xét độ tương tự của hai các thể ,i j nhờ thông tin các đặc trưng có
xuất hiện ở các cá thể này hay không Gọi
Trang 121.1.4 Độ đo hỗn hợp
Với số liệu hỗn hợp là số liệu có các biến thang đo khác nhau
(thang đo khoảng, nhị phân hay thứ bậc)
Nguyên tắc cơ bản thiết lập độ đô hỗn hợp là
Cho bảng dữ liệu X nxp ( p biến), khoảng cách giữa hai các nhân I và k
Trang 13ij ij
j j
x x s
Thí dụ 1.1: Thống kê biến động giá cổ phiếu 10 phiên liên tiếp của 6
công ty cho ở bảng dưới đây (1 = tăng hơn 6,2%, 0 = tăng không quá 6,2%)
Số lần tối đa xảy ra đặc trưng “tăng hơn 6,2%” là 10
Trang 14Có thể lựa chọn các độ đo khác trên SPSS
Với số liệu trên có thể sử dụng ma trận hiệp phương sai để đo độ tương
Trang 159
1.2 Khoảng cách giữa các nhóm
Với các cá thể khoảng cách được lựa chọn tương đối đơn giản vì nếu xem mỗi cá thể là 1 nhóm thì có thể sử dụng các khoảng cách trong (1.1.1.) Trong các thủ tục ghép nhóm người ta gặp vấn đề khoảng cách giữa các nhóm, khi ít nhất một trong các cặp nhóm có hơn 1 các thể Có nhiều lựa chọn khác nhau để giải quyết vấn đề này, tùy thuộc vào tính chất của tổng thể nghiên cứu và mục tiêu phân nhóm mà chọn cách xác định khoảng cách giữa các nhóm cho phù hợp Sau đây là một số cách xác định khoảng cách nhóm
Để mô tả dễ dàng hơn chúng ta gọi S =( )s ij là ma trận các chỉ số khác biệt hoặc tương tự tính cho các cá thể Với 1 trong các lựa chọn theo cách nói
ở trên chúng ta có sẵn ma trận
nxn
S Xuất phát từ n cá thể tương ứng n nhóm (mỗi nhóm 1 cá thể) Số các
Tính s AB: s AB =Min s xy Nếu S có độ đo khác biệt
s AB =Max s xy Nếu S có độ đo tương tự
Trang 1610
1.2.3 Liên kết đầy đủ
Tính sAB: s AB =Max s{ xy:xA y, B} Nếu S có độ đo khác biệt
s AB =Min s{ xy:xA y, B} Nếu S có độ đo tương tự
1.3 Một số vấn đề tổ hợp trong phân lớp
Về mặt lý thuyết khi tập E là hữu hạn chúng ta có thể cung cấp mọi cách phân nhóm, sau đó dùng một tiêu chuẩn nào đó để chọn cách phân nhóm tối ưu Tuy nhiên ngay điều này cũng không dễ dàng gì, hơn thế nếu có sẵn một tiêu thức có vai trò hàm mục tiêu thì tiêu thức này cũng chỉ cung cấp một
cách phân nhóm chủ quan Số cách tổ hợp khác nhau từ n phần tử quá lớn,
chưa nói đến mỗi cách tổ hợp sinh ra một số lớn các tổ hợp Hãy xét tình trạng về số tổ hợp và mối quan hệ của chúng
1( 1) / 2
n n n
n n
n n
Trang 17n n n i i
P C −−P−
=
= với P =0 0 (1.2)
1.3.3 Lựa chọn số lớp tối ưu
Cho n cá thể ( n điểm: X i i( = 1, , )n ) chúng ta có tối đa n − cách 2chọn số lớp (k = − 2 ,n 1) có ý nghĩa Với mỗi k chúng ta chia n cá thể thành k lớp (E E1, 2,E k) Mỗi lớp chúng ta có một tâm lớp g j(j = 1 ).k
B k
I F
Trang 18Số lớp tốt nhất k* thỏa mãn điều kiện:a k* = mina k (1.8)
Để tìm k theo (1.8) cần tính toán tất cả các trường hợp, thực tế với số
cá thể lớn thủ tục này không đơn giản Vì lý do đó người ta sử dụng biến động
giảm khoảng cách lớp khi ghép lớp để chọn k Thông thường mỗi phương
pháp cụ thể đều tính được sau mỗi bước ghép lớp thì lượng thông tin về sự khác biệt giữa các cá thể giảm bao nhiêu Một tín hiệu giảm nhanh đột ngột thường cho thấy không nên tiếp tục ghép lớp
Cũng cần chú ý là số lớp cần thiết đôi khi còn phụ thuộc vào người sử dụng kết quả, các kỹ thuật phân tích chỉ có vai trò cung cấp thông tin Người
sử dụng sẽ là người quyết định chọn bao nhiêu lớp
Trang 1913
CHƯƠNG 2 CÁC PHƯƠNG PHÁP PHÂN LỚP
Thông thường các phương pháp phân lớp được chia thành hai nhóm:
- Phương pháp thứ bậc là phương pháp tạo nên một cây ghép lớp trong đó
các số lớp được giảm dần (hay tăng đần) mà kết quả phân chia k lớp nhận
được từ việc ghép 2 lớp nào đó từ k +1 lớp
- Phương pháp không thứ bậc là phương pháp xác định trước số lớp k Từ
n cá thể cần tạo ra k nhóm sao cho các cá thể cùng nhóm khác nhau ít
hơn các cá thể khác nhóm
- Việc đánh giá chất lượng phân lớp thường được thực hiện bở tỷ lệ khác biệt trong các lớp với tỷ lệ khác biệt giữa các lớp
2.1 Phân lớp không thứ bậc
Phân lớp các cá thể bằng phương pháp không thứ bậc được thức hiện
khi số lớp đã lựa chọn trước (hay có thể xem k là một tham số của bài toán)
Có thể có nhiều cách khác nhau khi sử dụng các phương pháp như hai cách phổ biến là giảm dần số lớp và ngược lại là tăng dần số lớp Ở đây chúng
ta xem xét các phương pháp phân lớp theo cách giảm dần số lớp Tức là n cá thể chúng ta xuất phát từ trạng thái có n lớp (mỗi lớp 1 cá thể) Độ đo tương
tự (hoặc khác biệt) được mô tả qua ma trận khoảng cách và khoảng cách lớp
2.1.1 Các phương pháp kiểu đám mây động trong không gian Ơ cơ lit
Các phương pháp loại này cho phép giải quyết nhanh bài toán phân lớp, đối với các tập hợp, theo một tiêu chuẩn tối ưu địa phương được sử dụng như một độ đo quán tính Chúng ta giả sử rằng các cá thể của tập hợp được mô tả bởi các điểm trong p
R xác định một khoảng cách ơcơlít
Trang 2014
2.1.1.1 Quán tính giữa các lớp và trong từng lớp
Cho đám mây n điểm với tâm g , giả sử rằng đám mây này được chia thành k lớp Gọi g1, g2,, g k là các tâm của các lớp(g j =(g j1,g j2,,g jk))
và I I1, 2,,I k là quán tính của các lớp, chúng ta sẽ gọi là quán tính trong của các lớp để phân biệt với quán tính chung của đám mây Các quán tính này được tính theo các tâm lớp
Đặt a = ij 1 nếu cá thể i thuộc lớp , j a = ij 0 nếu cá thể i không thuộc
=
= (2.1) Tổng quán tính giữa các lớp, ký hiệu I B, xác định như sau
=
= (2.2) Trong đó P là trọng số của lớp j j x; ih mô tả cá thể i của biến Nếu mọi
cá thể có trọng số 1 thì có thể tính P j = n j
Nhờ công thức Huygens ta có thể nhận được công thức tính tổng quán tính chung như sau
I =I B +I W (2.3) Tiêu chuẩn sử dụng phân lớp cực tiểu hóa I W hoặc tương đương là cực đại hóa I B
Chú ý rằng tiêu chuẩn này dựa trên giả thiết k xác định, nếu k không xác định có thể dẫn đến việc chia tập n điểm thành n lớp ( I W =0)
Trang 2115
2.1.1.2 Thuật toán K-means cluster
Phương pháp này lựa chọn khoảng cách phù hợp với thuộc tính của các biến với tâm các nhóm được tính qua trung bình của các biến trong nhóm Không mất tính tổng quát có thể mô tả thuật toán này với M =E
Giả sử n cá thể được chia thành k nhóm với các tâm c=(c c1, ,2 ,c k) với số cá thể tương ứng (n n1, 2,,n k) Tổng sai số bình phương của các cá thể so với tâm L W được xác định qua công thức sau
Bài toán cực tiểu L W dẫn đến bài toán a = và c Như vậy có thể xác a ij
định hai bài toán lồng như sau
Bài toán 1: Tìm a khi c đã biết
Bài toán 2: Tìm c khi a đã biết
Có thể viết lại hàm L W tường minh như sau
Bài toán 1 tìm a cực tiểu L W
Bài toán 2 có thể giải như sau
Trang 2216
ij i i j
ij i
a x c
c k
(2.8) Lặp lại thuật toán này cho đến khi tâm các nhóm không thay đổi và các
cá thể tương ứng được xác định Chú ý là thuật toán trên có thể thực hiện theo
2 cách: thực hiện bài toán thứ 2 khi có sự thay đổi đầu tiên xác nhận được từ
bài toán thứ nhất; hoặc giải bài toán thứ nhất cho k nhóm sau đó mới giải bài
Nếu Min d X g ( k, j) d min;
Nếu d X g( k, u)d X g( k, v) thì thay g v bởi X k;
Nếu d X g( k, u)d X g( k, v) thì thay g u bởi X k;
Thuật toán này sẽ cho phép xác định các tâm xa nhau nhất có thể Người ta hy vọng giảm được số bước lặp trong quá trình tính toán
Trang 2317
2.1.1.4 Khắc phục suy biến
Theo cách thức trên chúng ta nhận thấy khi một nhóm chỉ có 1 cá thể,
nó có thể bị ghép vào một nhóm khác hoặc trở thành tâm của một nhóm thì bài toán tìm a không có lời giải duy nhất (bài toán suy biến) Để khắc phục ij
tình trạng này người ta đưa thêm điều kiện lựa chọn với từng cá thể khi khoảng cách của nó đến tâm nhóm gần nhất thứ hai lớn hơn khoảng cách nhỏ nhất của tâm nhóm gần nhất đến các tâm nhóm khác
Với X k không phải tâm nhóm, thực hiện thủ tục sau
Gọi g u là tâm nhóm gần X k nhất, g v là tâm nhóm gần X k thứ hai
Nếu d X g( k, v)Min d g g ( u, j)
Thì thay g u bằng X k để tiếp tục quá trình giải bài toán
Trường hợp người lại quá trình giải kết thúc
Trang 2418
Thí dụ 2.1: Với số liệu giá XMHT và FE6 theo tháng, ta muốn phân
theo thánh 4 nhóm, chọn ngẫu nhiên ban đầu các tâm là các tháng 1, 4, 7, 10 Kết quả phân lớp cho ở bảng sau
Trang 2519
Tâm các lớp và số cá thể:
Số cá thể của lớp
Tổng quán tính của đám mây E là: I = 2630849,738
Quán tính của đám mây các tâm nhóm là: I B = 2553556,108
Tổng quán tính của các nhóm là: I W= 77290,63
Fqs = 88,102; F-value = 0,000
2.1.2 Phân lớp với các biến nhị phân
Vể nguyên tắc, các biến định tính có thể xem như các biến định lượng
để mã hóa và sử dụng độ đo tương tự hỗn hợp khi chúng cùng trong một bài toán với các biến định lượng hoặc được thiết kế riêng biệt Tuy vậy nếu cần phân lớp với dữ liệu gồm tất cả các biến định tính thì người ta có thể sử dụng công cụ tốt hơn, phù hợp với tính chất của số liệu
Các phương pháp phân lớp một tập hợp E với n cá thể được mô tả qua
các chỉ tiêu định tính đã được P Michaud và F Marcotorchino xây dựng Người ta gọi các phương pháp này là các phương pháp mô tả số liệu dưới dạng quan hệ nhị phân
Độ đo tương tự (hay độ đo khoảng cách) rất phù hợp cho việc phân lớp các biến nhị phân
Trang 2620
Trong trường hợp số lớp đã lựa chọn trước, lựa chọn dạng liên kết (link) + đo khoảng cách giữa các nhóm để phân lớp theo cách giảm dần số lớp như sau
Với ma trận S ( đo độ tương tự) và chọn 1 liên kết ( chẳng hạn liên kết
đơn – simple link) Theo hai phương pháp (tuần tự và đấm mây di động), quá trình ghép lớp gồm các bước
Bước 1: Chọn ngẫu nhiên k cá thể tạo thành k tâm lớp
Bước 2: Với n k− cá thể mỗi cá thể sẽ ghép vào lớp có cá thể gần nó nhất Bước 3 : Tiếp tục lặp lại bước 2 đến khi tất cả các cá thể được ghép lớp