1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) phân tích số liệu clustering, distance methods, and ordination

226 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích số liệu Clustering, Distance Methods, And Ordination
Tác giả Ngô Quốc Cường, Phạm Bá Toàn, Phạm Thành Công
Người hướng dẫn Th.s Lê Xuân Lý
Trường học Viện Toán Ứng Dụng Và Tin Học, Đại Học Bách Khoa Hà Nội
Chuyên ngành Khoa Học Máy Tính và Công Nghệ Thông Tin
Thể loại Báo cáo phân tích số liệu
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 226
Dung lượng 1,04 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

3 Các phương pháp tương tự 4 Phương pháp phân cụm theo thứ bậc 5 Phương pháp phân cụm không theo thứ bậc 6 Phân cụm dựa trên mô hình thống kê 7 Thuật toán chia tỷ lệ đa chiều 8 Phân tích

Trang 2

1 Ngô Quốc Cường - 20185436

2 Phạm Bá Toàn - 20185413

Trang 3

Nội dung chính

1 Giới thiệu

2 Khoảng cách và hệ số tương ứng cho 2 biến.

3 Các phương pháp tương tự

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 5

Giới thiệu

Trang 6

1 Giới thiệu

2 Khoảng cách và hệ số tương ứng cho 2 biến

3 Các phương pháp tương tự

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 7

Nhóm 5 (Phân tích số liệu)

Trang 8

Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thànhcác nhóm dữ liệu với trong đó các đối tượng tương tự nhưnhau Trong mỗi nhóm, một số chi tiết có thể không quan tâmđến để đổi lấy dữ liệu đơn giản hóa.

Trang 9

Giới thiệu Khái niệm và mục tiêu của phân cụm dữ liệu.

Phân cụm dữ liệu.

Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thànhcác nhóm dữ liệu với trong đó các đối tượng tương tự nhưnhau Trong mỗi nhóm, một số chi tiết có thể không quan tâmđến để đổi lấy dữ liệu đơn giản hóa

Hiểu đơn giản: Phân cụm là gom các đối tượng dữ liệu:

Tương tự với 1 đối tượng khác trong cùng cụm

Không tương tự với các đối tượng trong các cụm

Trang 10

Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và

mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm Ví dụ

Trang 12

Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một bộ dữ liệu không có nhãn.

Chia các đối tượng thành các cụm “thuần nhất” và phân biệt với nhau, tức là các nhóm đối tượng thỏa mãn điều sau:

1.Độ tương tự của các đối tượng trong mỗi nhóm cao nhất có thể (tiêu chuẩn liên kết chặt)

2.Các đối tượng trong các nhóm khác nhau phân biệt nhất cóthể (tiêu chuẩn tách rời)

-> Cần 1 độ đo đánh giá độ tương tự hay độ khác biệt.(gọi là hệ

số tương tự mình sẽ nói chi tiết ở sau)

Trang 13

Giới thiệu Khái niệm và mục tiêu của phân cụm.

Mục tiêu của phân cụm

Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ

=⇒ Vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữliệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sanggiai đoạn phân tích cụm dữ liệu

Trang 14

Có khả năng thay đổi quy mô

Có khả năng thích nghi với các kiểu thuộc tính khác nhau

Khảm phá các cụm với hình dạng bất kì

Tối thiẻu lượng tri thức cần cho xác định tham số đầu vào

Khả năng thích nghi với dữ liệu nhiễu

Ít nhạy cảm với thứ tự của các dữ liệu vào

Số chiều lớn

Dễ hiểu dễ sử dụng

Trang 15

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 10 / 122

Trang 16

Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu.

Trang 17

Giới thiệu Tương tự và bất tương tự giữa hai đối tượng.

-Loại dữ liệu khảo sát

-Loại tương tự cần thiết

Trang 18

Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu.

Định nghĩa về tương tự và bất tương tự giữa các đối tượng phụ thuộc vào

-Loại dữ liệu khảo sát

-Loại tương tự cần thiết

Tương tự và bất tương tự giữa các đối tượng thường được biểudiễn qua độ đo khoảng cách d(x,y)

Trang 19

Giới thiệu Tương tự và bất tương tự giữa hai đối tượng.

Trang 20

1 Giới thiệu

2 Khoảng cách và hệ số tương ứng cho 2 biến

3 Các phương pháp tương tự

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 21

Nhóm 5 (Phân tích số liệu)

Trang 22

1 Dựa vào bản chất của biến:

+ Liên tục: miền giá trị của biến là 1 khoảng, vô hạn không

đếm được

+Rời rạc: miền giá trị là tập hữu hạn, đếm được

phần tử được diễn tả như: Yes/No, Nam/Nữ, 1/0, False/True

2 Dựa vào thang đo lường

+ Khoảng cách

Trang 25

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 15 / 122

Trang 27

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 16 / 122

Trang 28

Khoảng cách giữa đối tượng x và y, thể hiện sự khác biệt giữa đối tượng x, y, được tính tùy thuộc vào kiểu của các biến/thuộc tính.

Có rất nhiều cách tính khoảng cách:

+ Trực tiếp: Euclidean,Manhattan,Minkowski

+ Gián tiếp: 1- SIMILARITY

Trang 29

Khoảng cách và hệ số tương ứng cho 2 biến Khoảng cách

Khoảng cách Euclidean giữa 2 quan sát p chiều.

Đây có lẽ là loại khoảng cách được lựa chọn phổ biến nhất Nó đơn giản là hình học khoảng cách trong không gian đa chiều

Trang 30

Khoảng cách thống kê giữa 2 thống kê có dạng

Trang 32

Khi không có ý tưởng trước về kiến thức nhóm khoảng cách thì

chúng ta sử dụng công thức minkowski Với x= (x1, x2, , x m)

Trang 33

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 20 / 122

Trang 34

m=1: Khoảng cách 2 điểm trong không gian p chiều, trở

thành khoảng cách Manhattan

Manhattan

d(x,y) = p k=1 |(x i − y i )|

Trang 35

Khoảng cách và hệ số tương ứng cho 2 biến Khoảng cách

Minh họa.

A

Trang 37

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 39

Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng

Khoảng cách và hệ số tương tự giữa hai đối tượngKhi các mục không thể biểu thị bằng cách thước đo p chiều có ý nghĩa, các cặp mục thường được so sánh trên cơ sở có hoặc không

có các đặc điểm nhất định Sự hiện diện hoặc vắng mặt của một đặctính có thể mô tả toán học bằng cách đưa vào 1 "biến nhị phân", giả

sử giá trị 1 nếu có đặc tính và giá trị 0 nếu không có đặc tính đó

Ví dụ: Với p = 5, "điểm" cho 2 mục i và k có thể được sắp xếp như sau:

Items i

Items k

Trang 41

Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng

Khoảng cách và hệ số tương tự giữa hai đối tượngKhi các mục không thể biểu thị bằng cách thước đo p chiều có ý nghĩa, các cặp mục thường được so sánh trên cơ sở có hoặc không

có các đặc điểm nhất định Sự hiện diện hoặc vắng mặt của một đặctính có thể mô tả toán học bằng cách đưa vào 1 "biến nhị phân", giả

sử giá trị 1 nếu có đặc tính và giá trị 0 nếu không có đặc tính đó

Ví dụ: Với p = 5, "điểm" cho 2 mục i và k có thể được sắp xếp như sau:

Items i

Items k

Khi đó:

(x ij − x kj )2

Trang 43

Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng

Khoảng cách và hệ số tương tự giữa hai đối tượng

Trang 45

Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng

Khoảng cách và hệ số tương tự giữa hai đối tượng

Và khoảng cách Euclidean bình phương:

đếm số không khớp

5

(x ij −x kj )2 = (1 −1)2 + (0 −1)2 + (0 −0)2 + (1 −1)2 + (1 −0)2 = 2

j =1

Mặc dù khoảng cách dựa trên (12-6) có thể được sử dụng để đo

độ tương đồng, nhưng nó sẽ đến việc cân bằng trọng số các phần 1-1 và 0-0 Trong 1 số trường hợp, 1-1 là dấu hiệu tương

tự mạnh hơn so với 0-0 Để xử lí sự khác biệt giữa 1-1 và 0-0, một số phương án xác định hệ số tương tự được đề xuất Ta sẽ sắp xếp tần số của các kết quả trùng khớp và khác nhau các mục i và k dưới dạng một bảng dự phòng

Trang 46

Item i

Totals

a: Tổng số thuộc tính mà i và k đều có giá trị là 1

b: Tổng số thuộc tính trong đó thuộc tính của i là 1 và thuộc tính của k là 0

c: Tổng số thuộc tính trong đó thuộc tính của i là 0 và thuộc tính của k là 1

d: Tổng số thuộc tính mà i và k đều có giá trị là 0

Với cặp i, k ở trên ta có: a = 2, b = c = d = 1

Trang 47

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 26 / 122

Trang 48

Item i

Totals

a: Tổng số thuộc tính mà i và k đều có giá trị là 1

b: Tổng số thuộc tính trong đó thuộc tính của i là 1 và thuộc tính của k là 0

c: Tổng số thuộc tính trong đó thuộc tính của i là 0 và thuộc tính của k là 1

d: Tổng số thuộc tính mà i và k đều có giá trị là 0

Với cặp i, k ở trên ta có: a = 2, b = c = d = 1

Bảng 12.1 Liệt kê các hệ số tương tự phổ biến được xác định theo

tần số trong (12-7)

Trang 49

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 26 / 122

Trang 50

Double weight for 1-1 matches.

Trang 52

Individual 1Individual 2Individual 3Individual 4Individual 5

Xác định 6 biến nhị phân X1, X2, X3, X4, X5, X6 như sau:

X1

X2

X3

Trang 53

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 28 / 122

Trang 54

Ta có bảng cho Individual 1 và Individual 2 với p = 6 như sau:

Individual

Trang 55

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 29 / 122

Trang 56

Ta có bảng cho Individual 1 và Individual 2 với p = 6 như sau:

Trang 57

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 29 / 122

Trang 59

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 30 / 122

Trang 61

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 30 / 122

Trang 62

Dựa vào hệ số, ta có thể thấy:

- Cặp 2 và 5 giống nhau nhất

- Cặp 1 và 5 khác nhau nhất

Trang 64

Chúng ta đã thảo luận về các phương pháp tương tự cho các mục Trong một số ứng dụng, nó là các biến thay vì các mục, đối tượng phải được nhóm lại Các thước đo độ tương đồng cho các biến thường có dạng hệ số tương quan mẫu.

Khi các biến là nhị phân, dữ liệu có thể sắp xếp lại dưới dạng mộtbảng dự phòng Tuy nhiên, lần này là các biến thay vì các mục,

mô tả danh mục Với mã hoá 1 và 0 thông thường, bảng sẽ trở thành như sau:

Trang 65

Các phương pháp tương tự Sự tương đồng và các thước đo liên kết cho các cặp biến

Sự tương đồng và thước đo liên kết cho các cặp biến

Chúng ta đã thảo luận về các phương pháp tương tự cho các mục Trong một số ứng dụng, nó là các biến thay vì các mục, đối tượng phải được nhóm lại Các thước đo độ tương đồng cho các biến thường có dạng hệ số tương quan mẫu

Khi các biến là nhị phân, dữ liệu có thể sắp xếp lại dưới dạng mộtbảng dự phòng Tuy nhiên, lần này là các biến thay vì các mục,

mô tả danh mục Với mã hoá 1 và 0 thông thường, bảng sẽ trở thành như sau:

Trang 66

Công thức tương quan thông thường được áp dụng cho các biến nhị phân trong bảng dự phòng:

r =

Trang 67

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 33 / 122

Trang 68

Công thức tương quan thông thường được áp dụng cho các biến nhị phân trong bảng dự phòng:

r =

r có thể được coi là thước đo mức độ giống nhau giữa 2 biến Hệ số

tương quan trong (12-11) có liên quan đến thống kê khi bình phương

Trang 69

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 33 / 122

Trang 70

Có nhiều cách để đo lường mức độ tương đồng giữa các cặp đối tượng, hầu hết sẽ sử dụng khoảng cách hoặc các hệ số trong bảng (12.1) để phân cụm Tuy nhiên, đôi khi đầu vào cho các thuật toán phân cụm có thể là các tần số đơn giản.

Trang 71

Các phương pháp tương tự Nhận xét về sự tương tự

Nhận xét về sự tương tự

Có nhiều cách để đo lường mức độ tương đồng giữa các cặp đối tượng, hầu hết sẽ sử dụng khoảng cách hoặc các hệ số trong bảng (12.1) để phân cụm Tuy nhiên, đôi khi đầu vào cho các thuật toán phân cụm có thể là các tần số đơn giản

Trang 72

Ví dụ 12.2: (Đo lường sự giống nhau của các ngôn ngữ)

Nghĩa của các từ thay đổi theo tiến trình lịch sử Tuy nhiên, ý nghĩacủa các số 1,2,3, đại diện cho một ngoại lệ dễ thấy Vì vậy, sosánh đầu tiên của các ngôn ngữ có thể chỉ dựa trên các chữ số.Bảng 12.2 đưa ra 10 chữ số đầu tiên bằng tiếng Anh, tiếng Ba Lan,Hungary, và 8 ngôn ngữ hiện đại khác của Châu Âu

Trang 76

Các từ là 1 trong tiếng Pháp (French), tiếng Tây Ban Nha

(Spanish) và tiếng Ý (Italian) đều bắt đầu với u Với mục đích minh hoạ, chúng ta có thể so sánh các ngôn ngữ bằng cách xemcác chữ cái đầu tiên của các con số, các từ cho cùng một số bằng 2 ngôn ngữ khác nhau là đồng nhất nếu chúng có cùng chữ cái đầu tiên và không đồng nhất nếu chúng khác nhau Từ

Bảng 12.2, bảng tần số trùng khớp cho các số từ 1 đến 10 được đưa ra trong Bảng 12.3 :

Trang 77

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 37 / 122

Trang 80

Chúng ta thấy rằng tiếng Anh (English) và tiếng Na Uy(Norwegian) có cùng 1 chữ cái đầu tiên cho 8 trong số 10 cặp

từ Các tần số còn lại được tính toán theo cách tương tự

Kết quả trong Bảng 12.3 xác nhận trực quan ban đầu về Bảng

12.2 Đó là tiếng Anh (English), tiếng Na Uy (Norwegian), Tiếng

Đan Mạch (Danish), tiếng Hà Lan (Dutch) và tiếng Đức

(German) dường như tạo thành một nhóm Tiếng Pháp

(Friench), tiếng Tây Ban Nha (Spanish), tiếng Ý (Italian) và tiếng

Ba Lan (Polish) có thể được nhóm lại với nhau, trong khi tiếng Hungary (Hungarian) và tiếng Phần Lan (Finnish) dường như đứng riêng

Trang 81

Phương pháp phân cụm theo thứ bậc

Nội dung chính

1 Giới thiệu

2 Khoảng cách và hệ số tương ứng cho 2 biến

3 Các phương pháp tương tự

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 83

Phương pháp phân cụm theo thứ bậc

Phương pháp phân cụm theo thứ bậc

Kĩ thuật phân cụm theo thứ bậc có 2 cách tiến hành: kết hợp các cụm nhỏ với nhau tạo thành cụm lớn hoặc là chia cụm lớn

ra thành các cụm nhỏ

Phương pháp kết hợp cụm thứ bậc bắt đầu với các cụm là

những phần tử riêng lẻ Những cụm có khoảng cách gần nhau hoặc tương đồng với nhau nhất sẽ được kết hợp thành một cụm Sau đó thực hiện lặp lại việc kết hợp cho đến khi còn lại một cụm duy nhất

Phương pháp chia cụm thứ bậc thực hiện ngược lại, với một

cụm lớn ban đầu, được chia thành 2 cụm con sao cho phần tửtrong nhóm này cách xa phần tử còn lại Cụm con này sau đótiếp tục được phân chia theo quy tắc trên cho tới khi nào mỗicụm có đúng 1 phần tử

Kết quả của hai phương pháp phân chia và phương pháp kết hợp được thể hiện dưới dạng lược đồ hai chiều được gọi là Dendogram

Trang 85

Phương pháp phân cụm theo thứ bậc

Các phương pháp phân cụm kết hợp theo thứ bậc

Ởđây chúng ta sẽ tìm hiểu về các phương pháp phân cụm kết hợptheo thứ bậc, trong đó đặc biệt là các phương pháp liên kết

Liên kết đơn (Single linkage) : minimum distance

Liên kết hoàn chỉnh (Complete linkage) : maximum distance Liên kết trung bình (Average linkage) : average distance

Nhóm 5 (Phân tích số liệu)

Trang 86

Thuật toán:

1 Bắt đầu với N cụm, mỗi cụm chứa một phần tử duy nhất và lập ma trận khoảng cách đối xứng NxN.

nhất (có sự tương đồng nhau nhất) Giả sử khoảng cách giữa hai cụm gần

nhất U và V là d UV

3 Hợp nhất cụm U và V Gán nhãn cho cụm mới này

là (UV ) Cập nhập lại ma trận khoảng cách bằng cách:

Xóa các hàng và cột tương ứng với cụm U và V

Thêm một hàng và một cột gồm các khoảng cách giữa cụm (UV )

và các cụm còn lại

Trang 87

4 Lặp lại bước 2 và 3 Tổng lần lặp N − 1 lần Tất cả các

phần tử sẽ tạo thành một cụm duy nhất sau khi kết thúc thuật toán

Nhóm 5 (Phân tích số liệu)

Trang 88

Đầu vào cho một thuật toán liên kết đơn có thể là khoảng cách hoặc sự tương đồng giữa các cặp phần tử Ban đầu mỗi phần tử

là một cụm riêng biệt Thuật toán phân cụm phân cấp sẽ tạo ra các cụm lớn hơn bằng cách hợp nhất các cụm nhỏ hơn có khoảng cách nhỏ nhất hoặc độ tương đồng lớn nhất

Bắt đầu với N cụm, mỗi cụm chứa 1 phần tử, ta lập ma trận

khoảng cách cấp N là D = {d ik } rồi tìm khoảng cách nhỏ nhất trong

D = {d ik } và hợp nhất các phần tử tương ứng Giả sử, khoảng

cách giữa hai cụm gần nhất U và V là d UV , gộp U với V để cóđược cụm (UV)

Trang 89

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 44 / 122

Trang 90

Đối với Bước 3 của thuật toán chung ở trên, khoảng cách giữa (UV)

và bất kì cụm W nào khác được tính bằng công thức:

d

(UV )W = min {d

UW , d

VW } Kết quả của phân cụm liên kết đơn có thể được hiển thị bằng đồ thị dưới dạng biểu đồ dendrogram Các cành trên cây đại diện cho các cụm Các nhánh kết hợp với nhau (hợp nhất) tại các nút

có vị trí dọc theo trục khoảng cách (hoặc sự tương tự) cho biết mức độ hợp nhất xảy ra

Ngày đăng: 13/12/2022, 06:41

🧩 Sản phẩm bạn có thể quan tâm

w