3 Các phương pháp tương tự 4 Phương pháp phân cụm theo thứ bậc 5 Phương pháp phân cụm không theo thứ bậc 6 Phân cụm dựa trên mô hình thống kê 7 Thuật toán chia tỷ lệ đa chiều 8 Phân tích
Trang 2Thành viên nhóm
1 Ngô Quốc Cường - 20185436
3 Phạm Thành Công - 20185331
Trang 4Nội dung chính
1 Giới thiệu
2 Khoảng cách và hệ số tương ứng cho 2 biến.
3 Các phương pháp tương tự
4 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 6Giới thiệu
Trang 7Nội dung chính
1 Giới thiệu
2 Khoảng cách và hệ số tương ứng cho 2 biến
3 Các phương pháp tương tự
4 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 8Nhóm 5 (Phân tích số liệu)
Trang 9Phân cụm dữ liệu.
Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thànhcác nhóm dữ liệu với trong đó các đối tượng tương tự nhưnhau Trong mỗi nhóm, một số chi tiết có thể không quan tâmđến để đổi lấy dữ liệu đơn giản hóa
Trang 10Giới thiệu Khái niệm và mục tiêu của phân cụm dữ liệu.
Phân cụm dữ liệu.
Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thànhcác nhóm dữ liệu với trong đó các đối tượng tương tự nhưnhau Trong mỗi nhóm, một số chi tiết có thể không quan tâmđến để đổi lấy dữ liệu đơn giản hóa
Hiểu đơn giản: Phân cụm là gom các đối tượng dữ liệu:
Tương tự với 1 đối tượng khác trong cùng cụm
Không tương tự với các đối tượng trong các cụm
Trang 13Mục tiêu của phân cụm
Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một bộ dữ liệu không có nhãn
Chia các đối tượng thành các cụm “thuần nhất” và phân biệt với nhau, tức là các nhóm đối tượng thỏa mãn điều sau:
thể (tiêu chuẩn liên kết chặt)
thể (tiêu chuẩn tách rời)
-> Cần 1 độ đo đánh giá độ tương tự hay độ khác biệt.(gọi là hệ
số tương tự mình sẽ nói chi tiết ở sau)
Trang 14Giới thiệu Khái niệm và mục tiêu của phân cụm.
Mục tiêu của phân cụm
Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ
=⇒ Vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữliệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sanggiai đoạn phân tích cụm dữ liệu
Trang 15Yêu cầu cơ bản của phân cụm.
Có khả năng thay đổi quy mô
Có khả năng thích nghi với các kiểu thuộc tính khác nhau
Khảm phá các cụm với hình dạng bất kì
Tối thiẻu lượng tri thức cần cho xác định tham số đầu vào
Khả năng thích nghi với dữ liệu nhiễu
Ít nhạy cảm với thứ tự của các dữ liệu vào
Số chiều lớn
Dễ hiểu dễ sử dụng
Trang 16Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 10 / 122
Trang 17Tương tự và bất tương tự
Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu
Trang 18Giới thiệu Tương tự và bất tương tự giữa hai đối tượng.
Trang 19Tương tự và bất tương tự giữa các đối tượng thường được biểudiễn qua độ đo khoảng cách d(x,y)
Trang 20Giới thiệu Tương tự và bất tương tự giữa hai đối tượng.
Trang 21Nội dung chính
1 Giới thiệu
2 Khoảng cách và hệ số tương ứng cho 2 biến
3 Các phương pháp tương tự
4 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 22Nhóm 5 (Phân tích số liệu)
Trang 23Phân loại các biến dữ liệu.
1 Dựa vào bản chất của biến:
đếm được
+Rời rạc: miền giá trị là tập hữu hạn, đếm được
+ Nhị phân: là TH của thuộc tính rời rạc mà miền giá trị chỉ có 2 phần tử được diễn tả như: Yes/No, Nam/Nữ, 1/0, False/True
2 Dựa vào thang đo lường
Trang 24Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 14 / 122
Trang 26Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 15 / 122
Trang 27d(2, 1)
T
r
Trang 28d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữađối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính.
Trang 29Khoảng cách giữa đối tượng x và y, thể hiện sự khác biệt giữa đối tượng x, y, được tính tùy thuộc vào kiểu của các biến/thuộc tính.
Có rất nhiều cách tính khoảng cách:
Trang 30Khoảng cách và hệ số tương ứng cho 2 biến Khoảng cách
Khoảng cách Euclidean giữa 2 quan sát p chiều.
Đây có lẽ là loại khoảng cách được lựa chọn phổ biến nhất Nó đơn giản là hình học khoảng cách trong không gian đa chiều
Trang 31Khoảng cách Euclidean giữa 2 quan sát p chiều
Khoảng cách thống kê giữa 2 thống kê có dạng
Trang 33Minskowski distance
Khi không có ý tưởng trước về kiến thức nhóm khoảng cách thì
Trang 34MOI download
Trang 36Khoảng cách và hệ số tương ứng cho 2 biến Khoảng cách
Minh họa.
A
Trang 384 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 40Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng
Khoảng cách và hệ số tương tự giữa hai đối tượng
Khi các mục không thể biểu thị bằng cách thước đo p chiều có ý nghĩa, các cặp mục thường được so sánh trên cơ sở có hoặc không
có các đặc điểm nhất định Sự hiện diện hoặc vắng mặt của một đặctính có thể mô tả toán học bằng cách đưa vào 1 "biến nhị phân", giả
sử giá trị 1 nếu có đặc tính và giá trị 0 nếu không có đặc tính đó
Ví dụ: Với p = 5, "điểm" cho 2 mục i và k có thể được sắp xếp như sau:
Items i
Items k
Trang 42Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng
Khoảng cách và hệ số tương tự giữa hai đối tượng
Khi các mục không thể biểu thị bằng cách thước đo p chiều có ý nghĩa, các cặp mục thường được so sánh trên cơ sở có hoặc không
có các đặc điểm nhất định Sự hiện diện hoặc vắng mặt của một đặctính có thể mô tả toán học bằng cách đưa vào 1 "biến nhị phân", giả
sử giá trị 1 nếu có đặc tính và giá trị 0 nếu không có đặc tính đó
Ví dụ: Với p = 5, "điểm" cho 2 mục i và k có thể được sắp xếp như sau:
Items i
Items k
Khi đó:
(x ij − x kj )2
Trang 44Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng
Khoảng cách và hệ số tương tự giữa hai đối tượng
Trang 46Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng
Khoảng cách và hệ số tương tự giữa hai đối tượng
Và khoảng cách Euclidean bình phương:
đếm số không khớp
5
(x ij −x kj )2 = (1 −1)2 + (0 −1)2 + (0 −0)2 + (1 −1)2 + (1 −0)2 = 2
j =1
Mặc dù khoảng cách dựa trên (12-6) có thể được sử dụng để đo
độ tương đồng, nhưng nó sẽ đến việc cân bằng trọng số các phần 1-1 và 0-0 Trong 1 số trường hợp, 1-1 là dấu hiệu tương
tự mạnh hơn so với 0-0 Để xử lí sự khác biệt giữa 1-1 và 0-0, một số phương án xác định hệ số tương tự được đề xuất Ta sẽ sắp xếp tần số của các kết quả trùng khớp và khác nhau các mục i và k dưới dạng một bảng dự phòng
Trang 47Khoảng cách và hệ số tương tự giữa hai đối tượng
Item i
Totals
a: Tổng số thuộc tính mà i và k đều có giá trị là 1
b: Tổng số thuộc tính trong đó thuộc tính của i là 1 và thuộc tính của k là 0
c: Tổng số thuộc tính trong đó thuộc tính của i là 0 và thuộc tính của k là 1
d: Tổng số thuộc tính mà i và k đều có giá trị là 0
Với cặp i, k ở trên ta có: a = 2, b = c = d = 1
Trang 48Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 26 / 122
Trang 49Khoảng cách và hệ số tương tự giữa hai đối tượng
Item i
Totals
a: Tổng số thuộc tính mà i và k đều có giá trị là 1
b: Tổng số thuộc tính trong đó thuộc tính của i là 1 và thuộc tính của k là 0
c: Tổng số thuộc tính trong đó thuộc tính của i là 0 và thuộc tính của k là 1
d: Tổng số thuộc tính mà i và k đều có giá trị là 0
Với cặp i, k ở trên ta có: a = 2, b = c = d = 1
Bảng 12.1 Liệt kê các hệ số tương tự phổ biến được xác định theo
tần số trong (12-7)
Trang 50Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 26 / 122
Trang 516.2a + b + c No 0-0 matches in numerator or denominator.
Double weight for 1-1 matches
Trang 53Ví dụ 12.1
Individual 1Individual 2Individual 3Individual 4Individual 5
Xác định 6 biến nhị phân X1, X2, X3, X4, X5, X6 như sau:
X1
X2
X3
Trang 54Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 28 / 122
Trang 55Khoảng cách và hệ số tương tự giữa hai đối tượng
Ta có bảng cho Individual 1 và Individual 2 với p = 6 như sau:
Individual
Trang 56Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 29 / 122
Trang 57Khoảng cách và hệ số tương tự giữa hai đối tượng
Ta có bảng cho Individual 1 và Individual 2 với p = 6 như sau:
Trang 58Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 29 / 122
Trang 59Khoảng cách và hệ số tương tự giữa hai đối tượng
Trang 60Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 30 / 122
Trang 61Khoảng cách và hệ số tương tự giữa hai đối tượng
Tiếp tục với hệ số tương tự 1, ta tính các hệ số còn lại cho các cặp
Ta được ma trận đối xứng:
Trang 62UAN MOI download : skknchat123@gma
Trang 63Khoảng cách và hệ số tương tự giữa hai đối tượng
Dựa vào hệ số, ta có thể thấy:
Trang 65Sự tương đồng và thước đo liên kết cho các cặp biến
Chúng ta đã thảo luận về các phương pháp tương tự cho các mục Trong một số ứng dụng, nó là các biến thay vì các mục, đối tượng phải được nhóm lại Các thước đo độ tương đồng cho các biến thường có dạng hệ số tương quan mẫu
Khi các biến là nhị phân, dữ liệu có thể sắp xếp lại dưới dạng mộtbảng dự phòng Tuy nhiên, lần này là các biến thay vì các mục,
mô tả danh mục Với mã hoá 1 và 0 thông thường, bảng sẽ trở thành như sau:
Trang 66Các phương pháp tương tự Sự tương đồng và các thước đo liên kết cho các cặp biến
Sự tương đồng và thước đo liên kết cho các cặp biến
Chúng ta đã thảo luận về các phương pháp tương tự cho các mục Trong một số ứng dụng, nó là các biến thay vì các mục, đối tượng phải được nhóm lại Các thước đo độ tương đồng cho các biến thường có dạng hệ số tương quan mẫu
Khi các biến là nhị phân, dữ liệu có thể sắp xếp lại dưới dạng mộtbảng dự phòng Tuy nhiên, lần này là các biến thay vì các mục,
mô tả danh mục Với mã hoá 1 và 0 thông thường, bảng sẽ trở thành như sau:
Trang 67Sự tương đồng và thước đo liên kết cho các cặp biến
Công thức tương quan thông thường được áp dụng cho các biến nhị phân trong bảng dự phòng:
r =
Trang 68Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 33 / 122
Trang 69Sự tương đồng và thước đo liên kết cho các cặp biến
Công thức tương quan thông thường được áp dụng cho các biến nhị phân trong bảng dự phòng:
r =
r có thể được coi là thước đo mức độ giống nhau giữa 2 biến Hệ số
tương quan trong (12-11) có liên quan đến thống kê khi bình phương
Trang 70Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 33 / 122
Trang 71Nhận xét về sự tương tự
Có nhiều cách để đo lường mức độ tương đồng giữa các cặp đối tượng, hầu hết sẽ sử dụng khoảng cách hoặc các hệ số trong bảng (12.1) để phân cụm Tuy nhiên, đôi khi đầu vào cho các thuật toán phân cụm có thể là các tần số đơn giản
Trang 72Các phương pháp tương tự Nhận xét về sự tương tự
Nhận xét về sự tương tự
Có nhiều cách để đo lường mức độ tương đồng giữa các cặp đối tượng, hầu hết sẽ sử dụng khoảng cách hoặc các hệ số trong bảng (12.1) để phân cụm Tuy nhiên, đôi khi đầu vào cho các thuật toán phân cụm có thể là các tần số đơn giản
Trang 73Nhận xét về sự tương tự
Ví dụ 12.2: (Đo lường sự giống nhau của các ngôn ngữ)
Nghĩa của các từ thay đổi theo tiến trình lịch sử Tuy nhiên, ý nghĩacủa các số 1,2,3, đại diện cho một ngoại lệ dễ thấy Vì vậy, sosánh đầu tiên của các ngôn ngữ có thể chỉ dựa trên các chữ số.Bảng 12.2 đưa ra 10 chữ số đầu tiên bằng tiếng Anh, tiếng Ba Lan,Hungary, và 8 ngôn ngữ hiện đại khác của Châu Âu
Trang 75Nhận xét về sự tương tự
Trang 77Nhận xét về sự tương tự
Các từ là 1 trong tiếng Pháp (French), tiếng Tây Ban Nha
(Spanish) và tiếng Ý (Italian) đều bắt đầu với u Với mục đích minh hoạ, chúng ta có thể so sánh các ngôn ngữ bằng cách xemcác chữ cái đầu tiên của các con số, các từ cho cùng một số bằng 2 ngôn ngữ khác nhau là đồng nhất nếu chúng có cùng chữ cái đầu tiên và không đồng nhất nếu chúng khác nhau Từ
Bảng 12.2, bảng tần số trùng khớp cho các số từ 1 đến 10 được
đưa ra trong Bảng 12.3 :
Trang 78Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 37 / 122
Trang 81Nhận xét về sự tương tự
Chúng ta thấy rằng tiếng Anh (English) và tiếng Na Uy(Norwegian) có cùng 1 chữ cái đầu tiên cho 8 trong số 10 cặp
từ Các tần số còn lại được tính toán theo cách tương tự
Kết quả trong Bảng 12.3 xác nhận trực quan ban đầu về Bảng
12.2 Đó là tiếng Anh (English), tiếng Na Uy (Norwegian), Tiếng
Đan Mạch (Danish), tiếng Hà Lan (Dutch) và tiếng Đức
(German) dường như tạo thành một nhóm Tiếng Pháp
(Friench), tiếng Tây Ban Nha (Spanish), tiếng Ý (Italian) và tiếng
Ba Lan (Polish) có thể được nhóm lại với nhau, trong khi tiếng Hungary (Hungarian) và tiếng Phần Lan (Finnish) dường như đứng riêng
Trang 82Phương pháp phân cụm theo thứ bậc
Nội dung chính
1 Giới thiệu
2 Khoảng cách và hệ số tương ứng cho 2 biến
3 Các phương pháp tương tự
4 Phương pháp phân cụm theo thứ bậc
5 Phương pháp phân cụm không theo thứ bậc
6 Phân cụm dựa trên mô hình thống kê
7 Thuật toán chia tỷ lệ đa chiều
8 Phân tích tương ứng
Trang 84Phương pháp phân cụm theo thứ bậc
Phương pháp phân cụm theo thứ bậc
Kĩ thuật phân cụm theo thứ bậc có 2 cách tiến hành: kết hợp các cụm nhỏ với nhau tạo thành cụm lớn hoặc là chia cụm lớn
ra thành các cụm nhỏ
Phương pháp kết hợp cụm thứ bậc bắt đầu với các cụm là
những phần tử riêng lẻ Những cụm có khoảng cách gần nhau hoặc tương đồng với nhau nhất sẽ được kết hợp thành một cụm Sau đó thực hiện lặp lại việc kết hợp cho đến khi còn lại một cụm duy nhất
Phương pháp chia cụm thứ bậc thực hiện ngược lại, với một
cụm lớn ban đầu, được chia thành 2 cụm con sao cho phần tửtrong nhóm này cách xa phần tử còn lại Cụm con này sau đótiếp tục được phân chia theo quy tắc trên cho tới khi nào mỗicụm có đúng 1 phần tử
Kết quả của hai phương pháp phân chia và phương pháp kết hợp được thể hiện dưới dạng lược đồ hai chiều được gọi là Dendogram
Trang 86Phương pháp phân cụm theo thứ bậc
Các phương pháp phân cụm kết hợp theo thứ bậc
theo thứ bậc, trong đó đặc biệt là các phương pháp liên kết
Liên kết đơn (Single linkage) : minimum distance
Liên kết hoàn chỉnh (Complete linkage) : maximum distance Liên kết trung bình (Average linkage) : average distance
Nhóm 5 (Phân tích số liệu)
Trang 87Thuật toán
Thuật toán:
ma trận khoảng cách đối xứng NxN.
2 Trên ma trận khoảng cách, tìm khoảng cách của các cặp gần nhất (có
sự tương đồng nhau nhất) Giả sử khoảng cách giữa hai cụm gần
Cập nhập lại ma trận khoảng cách bằng cách:
Xóa các hàng và cột tương ứng với cụm U và V
Thêm một hàng và một cột gồm các khoảng cách giữa cụm (UV )
và các cụm còn lại
sẽ tạo thành một cụm duy nhất sau khi kết thúc thuật toán
Trang 88Nhóm 5 (Phân tích số liệu)
Trang 89Phân cụm theo liên kết đơn
Đầu vào cho một thuật toán liên kết đơn có thể là khoảng cách hoặc sự tương đồng giữa các cặp phần tử Ban đầu mỗi phần tử
là một cụm riêng biệt Thuật toán phân cụm phân cấp sẽ tạo ra các cụm lớn hơn bằng cách hợp nhất các cụm nhỏ hơn có
khoảng cách nhỏ nhất hoặc độ tương đồng lớn nhất
Bắt đầu với N cụm, mỗi cụm chứa 1 phần tử, ta lập ma trận
trong
D = {d ik } và hợp nhất các phần tử tương ứng Giả sử, khoảng
được cụm (UV)
Trang 91Phân cụm theo liên kết đơn
Đối với Bước 3 của thuật toán chung ở trên, khoảng cách giữa (UV)
và bất kì cụm W nào khác được tính bằng công thức:
có vị trí dọc theo trục khoảng cách (hoặc sự tương tự) cho biết mức độ hợp nhất xảy ra
Trang 92Phương pháp phân cụm theo thứ bậc Phân cụm theo liên kết đơn
Phân cụm theo liên kết đơn
Ví dụ
Chúng ta xét ma trận khoảng cách của năm đối tượng như sau:
Trang 94Phương pháp phân cụm theo thứ bậc Phân cụm theo liên kết đơn
Phân cụm theo liên kết đơn
Ta có:
min {d ik } = d53 = 2Vậy kết hợp 5 và 3 thành một cụm (35)
Tính các khoảng cách từ cụm (35) đến các phần tử còn lại là 1,2,4:
d(35)1 = min{d31, d51} = min {3, 11} = 3
d(35)2 = min{d32, d52} = min {7, 10} = 7
d(35)4 = min{d34, d54} = min {9, 8} = 8