1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích số liệu clustering, distance methods, and ordination

227 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 227
Dung lượng 1,03 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

3 Các phương pháp tương tự 4 Phương pháp phân cụm theo thứ bậc 5 Phương pháp phân cụm không theo thứ bậc 6 Phân cụm dựa trên mô hình thống kê 7 Thuật toán chia tỷ lệ đa chiều 8 Phân tích

Trang 2

Thành viên nhóm

1 Ngô Quốc Cường - 20185436

3 Phạm Thành Công - 20185331

Trang 4

Nội dung chính

1 Giới thiệu

2 Khoảng cách và hệ số tương ứng cho 2 biến.

3 Các phương pháp tương tự

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 6

Giới thiệu

Trang 7

Nội dung chính

1 Giới thiệu

2 Khoảng cách và hệ số tương ứng cho 2 biến

3 Các phương pháp tương tự

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 8

Nhóm 5 (Phân tích số liệu)

Trang 9

Phân cụm dữ liệu.

Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thànhcác nhóm dữ liệu với trong đó các đối tượng tương tự nhưnhau Trong mỗi nhóm, một số chi tiết có thể không quan tâmđến để đổi lấy dữ liệu đơn giản hóa

Trang 10

Giới thiệu Khái niệm và mục tiêu của phân cụm dữ liệu.

Phân cụm dữ liệu.

Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thànhcác nhóm dữ liệu với trong đó các đối tượng tương tự nhưnhau Trong mỗi nhóm, một số chi tiết có thể không quan tâmđến để đổi lấy dữ liệu đơn giản hóa

Hiểu đơn giản: Phân cụm là gom các đối tượng dữ liệu:

Tương tự với 1 đối tượng khác trong cùng cụm

Không tương tự với các đối tượng trong các cụm

Trang 13

Mục tiêu của phân cụm

Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trong một bộ dữ liệu không có nhãn

Chia các đối tượng thành các cụm “thuần nhất” và phân biệt với nhau, tức là các nhóm đối tượng thỏa mãn điều sau:

thể (tiêu chuẩn liên kết chặt)

thể (tiêu chuẩn tách rời)

-> Cần 1 độ đo đánh giá độ tương tự hay độ khác biệt.(gọi là hệ

số tương tự mình sẽ nói chi tiết ở sau)

Trang 14

Giới thiệu Khái niệm và mục tiêu của phân cụm.

Mục tiêu của phân cụm

Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ

=⇒ Vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữliệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sanggiai đoạn phân tích cụm dữ liệu

Trang 15

Yêu cầu cơ bản của phân cụm.

Có khả năng thay đổi quy mô

Có khả năng thích nghi với các kiểu thuộc tính khác nhau

Khảm phá các cụm với hình dạng bất kì

Tối thiẻu lượng tri thức cần cho xác định tham số đầu vào

Khả năng thích nghi với dữ liệu nhiễu

Ít nhạy cảm với thứ tự của các dữ liệu vào

Số chiều lớn

Dễ hiểu dễ sử dụng

Trang 16

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 10 / 122

Trang 17

Tương tự và bất tương tự

Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu

Trang 18

Giới thiệu Tương tự và bất tương tự giữa hai đối tượng.

Trang 19

Tương tự và bất tương tự giữa các đối tượng thường được biểudiễn qua độ đo khoảng cách d(x,y)

Trang 20

Giới thiệu Tương tự và bất tương tự giữa hai đối tượng.

Trang 21

Nội dung chính

1 Giới thiệu

2 Khoảng cách và hệ số tương ứng cho 2 biến

3 Các phương pháp tương tự

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 22

Nhóm 5 (Phân tích số liệu)

Trang 23

Phân loại các biến dữ liệu.

1 Dựa vào bản chất của biến:

đếm được

+Rời rạc: miền giá trị là tập hữu hạn, đếm được

+ Nhị phân: là TH của thuộc tính rời rạc mà miền giá trị chỉ có 2 phần tử được diễn tả như: Yes/No, Nam/Nữ, 1/0, False/True

2 Dựa vào thang đo lường

Trang 24

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 14 / 122

Trang 26

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 15 / 122

Trang 27

d(2, 1)

T

r

Trang 28

d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữađối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính.

Trang 29

Khoảng cách giữa đối tượng x và y, thể hiện sự khác biệt giữa đối tượng x, y, được tính tùy thuộc vào kiểu của các biến/thuộc tính.

Có rất nhiều cách tính khoảng cách:

Trang 30

Khoảng cách và hệ số tương ứng cho 2 biến Khoảng cách

Khoảng cách Euclidean giữa 2 quan sát p chiều.

Đây có lẽ là loại khoảng cách được lựa chọn phổ biến nhất Nó đơn giản là hình học khoảng cách trong không gian đa chiều

Trang 31

Khoảng cách Euclidean giữa 2 quan sát p chiều

Khoảng cách thống kê giữa 2 thống kê có dạng

Trang 33

Minskowski distance

Khi không có ý tưởng trước về kiến thức nhóm khoảng cách thì

Trang 34

MOI download

Trang 36

Khoảng cách và hệ số tương ứng cho 2 biến Khoảng cách

Minh họa.

A

Trang 38

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 40

Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng

Khoảng cách và hệ số tương tự giữa hai đối tượng

Khi các mục không thể biểu thị bằng cách thước đo p chiều có ý nghĩa, các cặp mục thường được so sánh trên cơ sở có hoặc không

có các đặc điểm nhất định Sự hiện diện hoặc vắng mặt của một đặctính có thể mô tả toán học bằng cách đưa vào 1 "biến nhị phân", giả

sử giá trị 1 nếu có đặc tính và giá trị 0 nếu không có đặc tính đó

Ví dụ: Với p = 5, "điểm" cho 2 mục i và k có thể được sắp xếp như sau:

Items i

Items k

Trang 42

Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng

Khoảng cách và hệ số tương tự giữa hai đối tượng

Khi các mục không thể biểu thị bằng cách thước đo p chiều có ý nghĩa, các cặp mục thường được so sánh trên cơ sở có hoặc không

có các đặc điểm nhất định Sự hiện diện hoặc vắng mặt của một đặctính có thể mô tả toán học bằng cách đưa vào 1 "biến nhị phân", giả

sử giá trị 1 nếu có đặc tính và giá trị 0 nếu không có đặc tính đó

Ví dụ: Với p = 5, "điểm" cho 2 mục i và k có thể được sắp xếp như sau:

Items i

Items k

Khi đó:

(x ij − x kj )2

Trang 44

Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng

Khoảng cách và hệ số tương tự giữa hai đối tượng

Trang 46

Các phương pháp tương tự Khoảng cách và hệ số tương tự giữa hai đối tượng

Khoảng cách và hệ số tương tự giữa hai đối tượng

Và khoảng cách Euclidean bình phương:

đếm số không khớp

5

(x ij −x kj )2 = (1 −1)2 + (0 −1)2 + (0 −0)2 + (1 −1)2 + (1 −0)2 = 2

j =1

Mặc dù khoảng cách dựa trên (12-6) có thể được sử dụng để đo

độ tương đồng, nhưng nó sẽ đến việc cân bằng trọng số các phần 1-1 và 0-0 Trong 1 số trường hợp, 1-1 là dấu hiệu tương

tự mạnh hơn so với 0-0 Để xử lí sự khác biệt giữa 1-1 và 0-0, một số phương án xác định hệ số tương tự được đề xuất Ta sẽ sắp xếp tần số của các kết quả trùng khớp và khác nhau các mục i và k dưới dạng một bảng dự phòng

Trang 47

Khoảng cách và hệ số tương tự giữa hai đối tượng

Item i

Totals

a: Tổng số thuộc tính mà i và k đều có giá trị là 1

b: Tổng số thuộc tính trong đó thuộc tính của i là 1 và thuộc tính của k là 0

c: Tổng số thuộc tính trong đó thuộc tính của i là 0 và thuộc tính của k là 1

d: Tổng số thuộc tính mà i và k đều có giá trị là 0

Với cặp i, k ở trên ta có: a = 2, b = c = d = 1

Trang 48

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 26 / 122

Trang 49

Khoảng cách và hệ số tương tự giữa hai đối tượng

Item i

Totals

a: Tổng số thuộc tính mà i và k đều có giá trị là 1

b: Tổng số thuộc tính trong đó thuộc tính của i là 1 và thuộc tính của k là 0

c: Tổng số thuộc tính trong đó thuộc tính của i là 0 và thuộc tính của k là 1

d: Tổng số thuộc tính mà i và k đều có giá trị là 0

Với cặp i, k ở trên ta có: a = 2, b = c = d = 1

Bảng 12.1 Liệt kê các hệ số tương tự phổ biến được xác định theo

tần số trong (12-7)

Trang 50

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 26 / 122

Trang 51

6.2a + b + c No 0-0 matches in numerator or denominator.

Double weight for 1-1 matches

Trang 53

Ví dụ 12.1

Individual 1Individual 2Individual 3Individual 4Individual 5

Xác định 6 biến nhị phân X1, X2, X3, X4, X5, X6 như sau:

X1

X2

X3

Trang 54

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 28 / 122

Trang 55

Khoảng cách và hệ số tương tự giữa hai đối tượng

Ta có bảng cho Individual 1 và Individual 2 với p = 6 như sau:

Individual

Trang 56

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 29 / 122

Trang 57

Khoảng cách và hệ số tương tự giữa hai đối tượng

Ta có bảng cho Individual 1 và Individual 2 với p = 6 như sau:

Trang 58

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 29 / 122

Trang 59

Khoảng cách và hệ số tương tự giữa hai đối tượng

Trang 60

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 30 / 122

Trang 61

Khoảng cách và hệ số tương tự giữa hai đối tượng

Tiếp tục với hệ số tương tự 1, ta tính các hệ số còn lại cho các cặp

Ta được ma trận đối xứng:

Trang 62

UAN MOI download : skknchat123@gma

Trang 63

Khoảng cách và hệ số tương tự giữa hai đối tượng

Dựa vào hệ số, ta có thể thấy:

Trang 65

Sự tương đồng và thước đo liên kết cho các cặp biến

Chúng ta đã thảo luận về các phương pháp tương tự cho các mục Trong một số ứng dụng, nó là các biến thay vì các mục, đối tượng phải được nhóm lại Các thước đo độ tương đồng cho các biến thường có dạng hệ số tương quan mẫu

Khi các biến là nhị phân, dữ liệu có thể sắp xếp lại dưới dạng mộtbảng dự phòng Tuy nhiên, lần này là các biến thay vì các mục,

mô tả danh mục Với mã hoá 1 và 0 thông thường, bảng sẽ trở thành như sau:

Trang 66

Các phương pháp tương tự Sự tương đồng và các thước đo liên kết cho các cặp biến

Sự tương đồng và thước đo liên kết cho các cặp biến

Chúng ta đã thảo luận về các phương pháp tương tự cho các mục Trong một số ứng dụng, nó là các biến thay vì các mục, đối tượng phải được nhóm lại Các thước đo độ tương đồng cho các biến thường có dạng hệ số tương quan mẫu

Khi các biến là nhị phân, dữ liệu có thể sắp xếp lại dưới dạng mộtbảng dự phòng Tuy nhiên, lần này là các biến thay vì các mục,

mô tả danh mục Với mã hoá 1 và 0 thông thường, bảng sẽ trở thành như sau:

Trang 67

Sự tương đồng và thước đo liên kết cho các cặp biến

Công thức tương quan thông thường được áp dụng cho các biến nhị phân trong bảng dự phòng:

r =

Trang 68

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 33 / 122

Trang 69

Sự tương đồng và thước đo liên kết cho các cặp biến

Công thức tương quan thông thường được áp dụng cho các biến nhị phân trong bảng dự phòng:

r =

r có thể được coi là thước đo mức độ giống nhau giữa 2 biến Hệ số

tương quan trong (12-11) có liên quan đến thống kê khi bình phương

Trang 70

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 33 / 122

Trang 71

Nhận xét về sự tương tự

Có nhiều cách để đo lường mức độ tương đồng giữa các cặp đối tượng, hầu hết sẽ sử dụng khoảng cách hoặc các hệ số trong bảng (12.1) để phân cụm Tuy nhiên, đôi khi đầu vào cho các thuật toán phân cụm có thể là các tần số đơn giản

Trang 72

Các phương pháp tương tự Nhận xét về sự tương tự

Nhận xét về sự tương tự

Có nhiều cách để đo lường mức độ tương đồng giữa các cặp đối tượng, hầu hết sẽ sử dụng khoảng cách hoặc các hệ số trong bảng (12.1) để phân cụm Tuy nhiên, đôi khi đầu vào cho các thuật toán phân cụm có thể là các tần số đơn giản

Trang 73

Nhận xét về sự tương tự

Ví dụ 12.2: (Đo lường sự giống nhau của các ngôn ngữ)

Nghĩa của các từ thay đổi theo tiến trình lịch sử Tuy nhiên, ý nghĩacủa các số 1,2,3, đại diện cho một ngoại lệ dễ thấy Vì vậy, sosánh đầu tiên của các ngôn ngữ có thể chỉ dựa trên các chữ số.Bảng 12.2 đưa ra 10 chữ số đầu tiên bằng tiếng Anh, tiếng Ba Lan,Hungary, và 8 ngôn ngữ hiện đại khác của Châu Âu

Trang 75

Nhận xét về sự tương tự

Trang 77

Nhận xét về sự tương tự

Các từ là 1 trong tiếng Pháp (French), tiếng Tây Ban Nha

(Spanish) và tiếng Ý (Italian) đều bắt đầu với u Với mục đích minh hoạ, chúng ta có thể so sánh các ngôn ngữ bằng cách xemcác chữ cái đầu tiên của các con số, các từ cho cùng một số bằng 2 ngôn ngữ khác nhau là đồng nhất nếu chúng có cùng chữ cái đầu tiên và không đồng nhất nếu chúng khác nhau Từ

Bảng 12.2, bảng tần số trùng khớp cho các số từ 1 đến 10 được

đưa ra trong Bảng 12.3 :

Trang 78

Nhóm 5 (Phân tích số liệu) Clustering Ngày 15 tháng 7 năm 2022 37 / 122

Trang 81

Nhận xét về sự tương tự

Chúng ta thấy rằng tiếng Anh (English) và tiếng Na Uy(Norwegian) có cùng 1 chữ cái đầu tiên cho 8 trong số 10 cặp

từ Các tần số còn lại được tính toán theo cách tương tự

Kết quả trong Bảng 12.3 xác nhận trực quan ban đầu về Bảng

12.2 Đó là tiếng Anh (English), tiếng Na Uy (Norwegian), Tiếng

Đan Mạch (Danish), tiếng Hà Lan (Dutch) và tiếng Đức

(German) dường như tạo thành một nhóm Tiếng Pháp

(Friench), tiếng Tây Ban Nha (Spanish), tiếng Ý (Italian) và tiếng

Ba Lan (Polish) có thể được nhóm lại với nhau, trong khi tiếng Hungary (Hungarian) và tiếng Phần Lan (Finnish) dường như đứng riêng

Trang 82

Phương pháp phân cụm theo thứ bậc

Nội dung chính

1 Giới thiệu

2 Khoảng cách và hệ số tương ứng cho 2 biến

3 Các phương pháp tương tự

4 Phương pháp phân cụm theo thứ bậc

5 Phương pháp phân cụm không theo thứ bậc

6 Phân cụm dựa trên mô hình thống kê

7 Thuật toán chia tỷ lệ đa chiều

8 Phân tích tương ứng

Trang 84

Phương pháp phân cụm theo thứ bậc

Phương pháp phân cụm theo thứ bậc

Kĩ thuật phân cụm theo thứ bậc có 2 cách tiến hành: kết hợp các cụm nhỏ với nhau tạo thành cụm lớn hoặc là chia cụm lớn

ra thành các cụm nhỏ

Phương pháp kết hợp cụm thứ bậc bắt đầu với các cụm là

những phần tử riêng lẻ Những cụm có khoảng cách gần nhau hoặc tương đồng với nhau nhất sẽ được kết hợp thành một cụm Sau đó thực hiện lặp lại việc kết hợp cho đến khi còn lại một cụm duy nhất

Phương pháp chia cụm thứ bậc thực hiện ngược lại, với một

cụm lớn ban đầu, được chia thành 2 cụm con sao cho phần tửtrong nhóm này cách xa phần tử còn lại Cụm con này sau đótiếp tục được phân chia theo quy tắc trên cho tới khi nào mỗicụm có đúng 1 phần tử

Kết quả của hai phương pháp phân chia và phương pháp kết hợp được thể hiện dưới dạng lược đồ hai chiều được gọi là Dendogram

Trang 86

Phương pháp phân cụm theo thứ bậc

Các phương pháp phân cụm kết hợp theo thứ bậc

theo thứ bậc, trong đó đặc biệt là các phương pháp liên kết

Liên kết đơn (Single linkage) : minimum distance

Liên kết hoàn chỉnh (Complete linkage) : maximum distance Liên kết trung bình (Average linkage) : average distance

Nhóm 5 (Phân tích số liệu)

Trang 87

Thuật toán

Thuật toán:

ma trận khoảng cách đối xứng NxN.

2 Trên ma trận khoảng cách, tìm khoảng cách của các cặp gần nhất (có

sự tương đồng nhau nhất) Giả sử khoảng cách giữa hai cụm gần

Cập nhập lại ma trận khoảng cách bằng cách:

Xóa các hàng và cột tương ứng với cụm U và V

Thêm một hàng và một cột gồm các khoảng cách giữa cụm (UV )

và các cụm còn lại

sẽ tạo thành một cụm duy nhất sau khi kết thúc thuật toán

Trang 88

Nhóm 5 (Phân tích số liệu)

Trang 89

Phân cụm theo liên kết đơn

Đầu vào cho một thuật toán liên kết đơn có thể là khoảng cách hoặc sự tương đồng giữa các cặp phần tử Ban đầu mỗi phần tử

là một cụm riêng biệt Thuật toán phân cụm phân cấp sẽ tạo ra các cụm lớn hơn bằng cách hợp nhất các cụm nhỏ hơn có

khoảng cách nhỏ nhất hoặc độ tương đồng lớn nhất

Bắt đầu với N cụm, mỗi cụm chứa 1 phần tử, ta lập ma trận

trong

D = {d ik } và hợp nhất các phần tử tương ứng Giả sử, khoảng

được cụm (UV)

Trang 91

Phân cụm theo liên kết đơn

Đối với Bước 3 của thuật toán chung ở trên, khoảng cách giữa (UV)

và bất kì cụm W nào khác được tính bằng công thức:

có vị trí dọc theo trục khoảng cách (hoặc sự tương tự) cho biết mức độ hợp nhất xảy ra

Trang 92

Phương pháp phân cụm theo thứ bậc Phân cụm theo liên kết đơn

Phân cụm theo liên kết đơn

Ví dụ

Chúng ta xét ma trận khoảng cách của năm đối tượng như sau:

Trang 94

Phương pháp phân cụm theo thứ bậc Phân cụm theo liên kết đơn

Phân cụm theo liên kết đơn

Ta có:

min {d ik } = d53 = 2Vậy kết hợp 5 và 3 thành một cụm (35)

Tính các khoảng cách từ cụm (35) đến các phần tử còn lại là 1,2,4:

d(35)1 = min{d31, d51} = min {3, 11} = 3

d(35)2 = min{d32, d52} = min {7, 10} = 7

d(35)4 = min{d34, d54} = min {9, 8} = 8

Ngày đăng: 10/08/2022, 05:57

w