3 Các phương pháp tương tự 4 Phương pháp phân cụm theo thứ bậc 5 Phương pháp phân cụm không theo thứ bậc 6 Phân cụm dựa trên mô hình thống kê 7 Thuật toán chia tỷ lệ đa chiều 8 Phân tích
Trang 21 Ngô Quốc Cường - 20185436
2 Phạm Bá Toàn - 20185413
Trang 3Nội dung chính
1 Giới thiệu
2 Khoảng cách và hệ số tương ứng cho 2 biến.
3 Các phương pháp tương tự
4 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 5Giới thiệu
Trang 61 Giới thiệu
2 Khoảng cách và hệ số tương ứng cho 2 biến
3 Các phương pháp tương tự
4 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 7Nhóm 5 (Phân tích số liệu)
Trang 8Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thànhcác nhóm dữ liệu với trong đó các đối tượng tương tự nhưnhau Trong mỗi nhóm, một số chi tiết có thể không quan tâmđến để đổi lấy dữ liệu đơn giản hóa.
Trang 9Giới thiệu Khái niệm và mục tiêu của phân cụm dữ liệu.
Phân cụm dữ liệu.
Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thànhcác nhóm dữ liệu với trong đó các đối tượng tương tự nhưnhau Trong mỗi nhóm, một số chi tiết có thể không quan tâmđến để đổi lấy dữ liệu đơn giản hóa
Hiểu đơn giản: Phân cụm là gom các đối tượng dữ liệu:
Tương tự với 1 đối tượng khác trong cùng cụm
Không tương tự với các đối tượng trong các cụm
Trang 10Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và
mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm Ví dụ
Trang 12Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một bộ dữ liệu không có nhãn.
Chia các đối tượng thành các cụm “thuần nhất” và phân biệt với nhau, tức là các nhóm đối tượng thỏa mãn điều sau:
1.Độ tương tự của các đối tượng trong mỗi nhóm cao nhất có thể (tiêu chuẩn liên kết chặt)
2.Các đối tượng trong các nhóm khác nhau phân biệt nhất cóthể (tiêu chuẩn tách rời)
-> Cần 1 độ đo đánh giá độ tương tự hay độ khác biệt.(gọi là hệ
số tương tự mình sẽ nói chi tiết ở sau)
Trang 13Giới thiệu Khái niệm và mục tiêu của phân cụm.
Mục tiêu của phân cụm
Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ
=⇒ Vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữliệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sanggiai đoạn phân tích cụm dữ liệu
Trang 14Có khả năng thay đổi quy mô
Có khả năng thích nghi với các kiểu thuộc tính khác nhau
Khảm phá các cụm với hình dạng bất kì
Tối thiẻu lượng tri thức cần cho xác định tham số đầu vào
Khả năng thích nghi với dữ liệu nhiễu
Ít nhạy cảm với thứ tự của các dữ liệu vào
Số chiều lớn
Dễ hiểu dễ sử dụng
Trang 15Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 10 / 122
Trang 16Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu.
Trang 17Giới thiệu Tương tự và bất tương tự giữa hai đối tượng.
-Loại dữ liệu khảo sát
-Loại tương tự cần thiết
Trang 18Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu.
Định nghĩa về tương tự và bất tương tự giữa các đối tượng phụ thuộc vào
-Loại dữ liệu khảo sát
-Loại tương tự cần thiết
Tương tự và bất tương tự giữa các đối tượng thường được biểudiễn qua độ đo khoảng cách d(x,y)
Trang 19Giới thiệu Tương tự và bất tương tự giữa hai đối tượng.
Trang 201 Giới thiệu
2 Khoảng cách và hệ số tương ứng cho 2 biến
3 Các phương pháp tương tự
4 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 21Nhóm 5 (Phân tích số liệu)
Trang 221 Dựa vào bản chất của biến:
+ Liên tục: miền giá trị của biến là 1 khoảng, vô hạn không
đếm được
+Rời rạc: miền giá trị là tập hữu hạn, đếm được
phần tử được diễn tả như: Yes/No, Nam/Nữ, 1/0, False/True
2 Dựa vào thang đo lường
+ Khoảng cách
Trang 25Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 15 / 122
Trang 27Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 16 / 122
Trang 28Khoảng cách giữa đối tượng x và y, thể hiện sự khác biệt giữa đối tượng x, y, được tính tùy thuộc vào kiểu của các biến/thuộc tính.
Có rất nhiều cách tính khoảng cách:
+ Trực tiếp: Euclidean,Manhattan,Minkowski
+ Gián tiếp: 1- SIMILARITY
Trang 29Khoảng cách và hệ số tương ứng cho 2 biến Khoảng cách
Khoảng cách Euclidean giữa 2 quan sát p chiều.
Đây có lẽ là loại khoảng cách được lựa chọn phổ biến nhất Nó đơn giản là hình học khoảng cách trong không gian đa chiều
Trang 30Khoảng cách thống kê giữa 2 thống kê có dạng
Trang 32Khi không có ý tưởng trước về kiến thức nhóm khoảng cách thì
chúng ta sử dụng công thức minkowski Với x= (x1, x2, , x m)
Trang 33Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 20 / 122
Trang 34m=1: Khoảng cách 2 điểm trong không gian p chiều, trở
thành khoảng cách Manhattan
Manhattan
d(x,y) = p k=1 |(x i − y i )|
Trang 35Khoảng cách và hệ số tương ứng cho 2 biến Khoảng cách
Minh họa.
A
Trang 374 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 39Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng
Khoảng cách và hệ số tương tự giữa hai đối tượngKhi các mục không thể biểu thị bằng cách thước đo p chiều có ý nghĩa, các cặp mục thường được so sánh trên cơ sở có hoặc không
có các đặc điểm nhất định Sự hiện diện hoặc vắng mặt của một đặctính có thể mô tả toán học bằng cách đưa vào 1 "biến nhị phân", giả
sử giá trị 1 nếu có đặc tính và giá trị 0 nếu không có đặc tính đó
Ví dụ: Với p = 5, "điểm" cho 2 mục i và k có thể được sắp xếp như sau:
Items i
Items k
Trang 41Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng
Khoảng cách và hệ số tương tự giữa hai đối tượngKhi các mục không thể biểu thị bằng cách thước đo p chiều có ý nghĩa, các cặp mục thường được so sánh trên cơ sở có hoặc không
có các đặc điểm nhất định Sự hiện diện hoặc vắng mặt của một đặctính có thể mô tả toán học bằng cách đưa vào 1 "biến nhị phân", giả
sử giá trị 1 nếu có đặc tính và giá trị 0 nếu không có đặc tính đó
Ví dụ: Với p = 5, "điểm" cho 2 mục i và k có thể được sắp xếp như sau:
Items i
Items k
Khi đó:
(x ij − x kj )2
Trang 43Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng
Khoảng cách và hệ số tương tự giữa hai đối tượng
Trang 45Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng
Khoảng cách và hệ số tương tự giữa hai đối tượng
Và khoảng cách Euclidean bình phương:
đếm số không khớp
5
(x ij −x kj )2 = (1 −1)2 + (0 −1)2 + (0 −0)2 + (1 −1)2 + (1 −0)2 = 2
j =1
Mặc dù khoảng cách dựa trên (12-6) có thể được sử dụng để đo
độ tương đồng, nhưng nó sẽ đến việc cân bằng trọng số các phần 1-1 và 0-0 Trong 1 số trường hợp, 1-1 là dấu hiệu tương
tự mạnh hơn so với 0-0 Để xử lí sự khác biệt giữa 1-1 và 0-0, một số phương án xác định hệ số tương tự được đề xuất Ta sẽ sắp xếp tần số của các kết quả trùng khớp và khác nhau các mục i và k dưới dạng một bảng dự phòng
Trang 46Item i
Totals
a: Tổng số thuộc tính mà i và k đều có giá trị là 1
b: Tổng số thuộc tính trong đó thuộc tính của i là 1 và thuộc tính của k là 0
c: Tổng số thuộc tính trong đó thuộc tính của i là 0 và thuộc tính của k là 1
d: Tổng số thuộc tính mà i và k đều có giá trị là 0
Với cặp i, k ở trên ta có: a = 2, b = c = d = 1
Trang 47Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 26 / 122
Trang 48Item i
Totals
a: Tổng số thuộc tính mà i và k đều có giá trị là 1
b: Tổng số thuộc tính trong đó thuộc tính của i là 1 và thuộc tính của k là 0
c: Tổng số thuộc tính trong đó thuộc tính của i là 0 và thuộc tính của k là 1
d: Tổng số thuộc tính mà i và k đều có giá trị là 0
Với cặp i, k ở trên ta có: a = 2, b = c = d = 1
Bảng 12.1 Liệt kê các hệ số tương tự phổ biến được xác định theo
tần số trong (12-7)
Trang 49Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 26 / 122
Trang 50Double weight for 1-1 matches.
Trang 52Individual 1Individual 2Individual 3Individual 4Individual 5
Xác định 6 biến nhị phân X1, X2, X3, X4, X5, X6 như sau:
X1
X2
X3
Trang 53Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 28 / 122
Trang 54Ta có bảng cho Individual 1 và Individual 2 với p = 6 như sau:
Individual
Trang 55Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 29 / 122
Trang 56Ta có bảng cho Individual 1 và Individual 2 với p = 6 như sau:
Trang 57Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 29 / 122
Trang 59Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 30 / 122
Trang 61Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 30 / 122
Trang 62Dựa vào hệ số, ta có thể thấy:
- Cặp 2 và 5 giống nhau nhất
- Cặp 1 và 5 khác nhau nhất
Trang 64Chúng ta đã thảo luận về các phương pháp tương tự cho các mục Trong một số ứng dụng, nó là các biến thay vì các mục, đối tượng phải được nhóm lại Các thước đo độ tương đồng cho các biến thường có dạng hệ số tương quan mẫu.
Khi các biến là nhị phân, dữ liệu có thể sắp xếp lại dưới dạng mộtbảng dự phòng Tuy nhiên, lần này là các biến thay vì các mục,
mô tả danh mục Với mã hoá 1 và 0 thông thường, bảng sẽ trở thành như sau:
Trang 65Các phương pháp tương tự Sự tương đồng và các thước đo liên kết cho các cặp biến
Sự tương đồng và thước đo liên kết cho các cặp biến
Chúng ta đã thảo luận về các phương pháp tương tự cho các mục Trong một số ứng dụng, nó là các biến thay vì các mục, đối tượng phải được nhóm lại Các thước đo độ tương đồng cho các biến thường có dạng hệ số tương quan mẫu
Khi các biến là nhị phân, dữ liệu có thể sắp xếp lại dưới dạng mộtbảng dự phòng Tuy nhiên, lần này là các biến thay vì các mục,
mô tả danh mục Với mã hoá 1 và 0 thông thường, bảng sẽ trở thành như sau:
Trang 66Công thức tương quan thông thường được áp dụng cho các biến nhị phân trong bảng dự phòng:
r =
Trang 67Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 33 / 122
Trang 68Công thức tương quan thông thường được áp dụng cho các biến nhị phân trong bảng dự phòng:
r =
r có thể được coi là thước đo mức độ giống nhau giữa 2 biến Hệ số
tương quan trong (12-11) có liên quan đến thống kê khi bình phương
Trang 69Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 33 / 122
Trang 70Có nhiều cách để đo lường mức độ tương đồng giữa các cặp đối tượng, hầu hết sẽ sử dụng khoảng cách hoặc các hệ số trong bảng (12.1) để phân cụm Tuy nhiên, đôi khi đầu vào cho các thuật toán phân cụm có thể là các tần số đơn giản.
Trang 71Các phương pháp tương tự Nhận xét về sự tương tự
Nhận xét về sự tương tự
Có nhiều cách để đo lường mức độ tương đồng giữa các cặp đối tượng, hầu hết sẽ sử dụng khoảng cách hoặc các hệ số trong bảng (12.1) để phân cụm Tuy nhiên, đôi khi đầu vào cho các thuật toán phân cụm có thể là các tần số đơn giản
Trang 72Ví dụ 12.2: (Đo lường sự giống nhau của các ngôn ngữ)
Nghĩa của các từ thay đổi theo tiến trình lịch sử Tuy nhiên, ý nghĩacủa các số 1,2,3, đại diện cho một ngoại lệ dễ thấy Vì vậy, sosánh đầu tiên của các ngôn ngữ có thể chỉ dựa trên các chữ số.Bảng 12.2 đưa ra 10 chữ số đầu tiên bằng tiếng Anh, tiếng Ba Lan,Hungary, và 8 ngôn ngữ hiện đại khác của Châu Âu
Trang 76Các từ là 1 trong tiếng Pháp (French), tiếng Tây Ban Nha
(Spanish) và tiếng Ý (Italian) đều bắt đầu với u Với mục đích minh hoạ, chúng ta có thể so sánh các ngôn ngữ bằng cách xemcác chữ cái đầu tiên của các con số, các từ cho cùng một số bằng 2 ngôn ngữ khác nhau là đồng nhất nếu chúng có cùng chữ cái đầu tiên và không đồng nhất nếu chúng khác nhau Từ
Bảng 12.2, bảng tần số trùng khớp cho các số từ 1 đến 10 được đưa ra trong Bảng 12.3 :
Trang 77Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 37 / 122
Trang 80Chúng ta thấy rằng tiếng Anh (English) và tiếng Na Uy(Norwegian) có cùng 1 chữ cái đầu tiên cho 8 trong số 10 cặp
từ Các tần số còn lại được tính toán theo cách tương tự
Kết quả trong Bảng 12.3 xác nhận trực quan ban đầu về Bảng
12.2 Đó là tiếng Anh (English), tiếng Na Uy (Norwegian), Tiếng
Đan Mạch (Danish), tiếng Hà Lan (Dutch) và tiếng Đức
(German) dường như tạo thành một nhóm Tiếng Pháp
(Friench), tiếng Tây Ban Nha (Spanish), tiếng Ý (Italian) và tiếng
Ba Lan (Polish) có thể được nhóm lại với nhau, trong khi tiếng Hungary (Hungarian) và tiếng Phần Lan (Finnish) dường như đứng riêng
Trang 81Phương pháp phân cụm theo thứ bậc
Nội dung chính
1 Giới thiệu
2 Khoảng cách và hệ số tương ứng cho 2 biến
3 Các phương pháp tương tự
4 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 83Phương pháp phân cụm theo thứ bậc
Phương pháp phân cụm theo thứ bậc
Kĩ thuật phân cụm theo thứ bậc có 2 cách tiến hành: kết hợp các cụm nhỏ với nhau tạo thành cụm lớn hoặc là chia cụm lớn
ra thành các cụm nhỏ
Phương pháp kết hợp cụm thứ bậc bắt đầu với các cụm là
những phần tử riêng lẻ Những cụm có khoảng cách gần nhau hoặc tương đồng với nhau nhất sẽ được kết hợp thành một cụm Sau đó thực hiện lặp lại việc kết hợp cho đến khi còn lại một cụm duy nhất
Phương pháp chia cụm thứ bậc thực hiện ngược lại, với một
cụm lớn ban đầu, được chia thành 2 cụm con sao cho phần tửtrong nhóm này cách xa phần tử còn lại Cụm con này sau đótiếp tục được phân chia theo quy tắc trên cho tới khi nào mỗicụm có đúng 1 phần tử
Kết quả của hai phương pháp phân chia và phương pháp kết hợp được thể hiện dưới dạng lược đồ hai chiều được gọi là Dendogram
Trang 85Phương pháp phân cụm theo thứ bậc
Các phương pháp phân cụm kết hợp theo thứ bậc
Ởđây chúng ta sẽ tìm hiểu về các phương pháp phân cụm kết hợptheo thứ bậc, trong đó đặc biệt là các phương pháp liên kết
Liên kết đơn (Single linkage) : minimum distance
Liên kết hoàn chỉnh (Complete linkage) : maximum distance Liên kết trung bình (Average linkage) : average distance
Nhóm 5 (Phân tích số liệu)
Trang 86Thuật toán:
1 Bắt đầu với N cụm, mỗi cụm chứa một phần tử duy nhất và lập ma trận khoảng cách đối xứng NxN.
nhất (có sự tương đồng nhau nhất) Giả sử khoảng cách giữa hai cụm gần
nhất U và V là d UV
3 Hợp nhất cụm U và V Gán nhãn cho cụm mới này
là (UV ) Cập nhập lại ma trận khoảng cách bằng cách:
Xóa các hàng và cột tương ứng với cụm U và V
Thêm một hàng và một cột gồm các khoảng cách giữa cụm (UV )
và các cụm còn lại
Trang 874 Lặp lại bước 2 và 3 Tổng lần lặp N − 1 lần Tất cả các
phần tử sẽ tạo thành một cụm duy nhất sau khi kết thúc thuật toán
Nhóm 5 (Phân tích số liệu)
Trang 88Đầu vào cho một thuật toán liên kết đơn có thể là khoảng cách hoặc sự tương đồng giữa các cặp phần tử Ban đầu mỗi phần tử
là một cụm riêng biệt Thuật toán phân cụm phân cấp sẽ tạo ra các cụm lớn hơn bằng cách hợp nhất các cụm nhỏ hơn có khoảng cách nhỏ nhất hoặc độ tương đồng lớn nhất
Bắt đầu với N cụm, mỗi cụm chứa 1 phần tử, ta lập ma trận
khoảng cách cấp N là D = {d ik } rồi tìm khoảng cách nhỏ nhất trong
D = {d ik } và hợp nhất các phần tử tương ứng Giả sử, khoảng
cách giữa hai cụm gần nhất U và V là d UV , gộp U với V để cóđược cụm (UV)
Trang 89Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 44 / 122
Trang 90Đối với Bước 3 của thuật toán chung ở trên, khoảng cách giữa (UV)
và bất kì cụm W nào khác được tính bằng công thức:
d
(UV )W = min {d
UW , d
VW } Kết quả của phân cụm liên kết đơn có thể được hiển thị bằng đồ thị dưới dạng biểu đồ dendrogram Các cành trên cây đại diện cho các cụm Các nhánh kết hợp với nhau (hợp nhất) tại các nút
có vị trí dọc theo trục khoảng cách (hoặc sự tương tự) cho biết mức độ hợp nhất xảy ra