1. Trang chủ
  2. » Luận Văn - Báo Cáo

BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION

62 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Môn Học Phân Tích Số Liệu_Đề Tài: Clustering, Distance Methods, And Ordination
Tác giả Nhóm 6, Đào Thị Thu Hà, Chu Thị Vy, Đỗ Thị Trang, Hoàng Tú Linh, Nguyễn Tuấn Anh, Phạm Vân Anh, Nguyễn Minh Đức, Nguyễn Thị Ngọc Huyền, Lê Hữu Đức Long, Nông Văn Toản
Người hướng dẫn Th.s Lê Xuân Lý
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Khoa Học Máy Tính
Thể loại Báo cáo môn học
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 62
Dung lượng 3,5 MB
File đính kèm Nhóm 6.rar (7 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1.1 Khái niệm và mục tiêu của phân cụm (6)
    • 1.1.1 Khái niệm (6)
    • 1.1.2 Mục tiêu của phân cụm (7)
  • 1.2 Các ứng dụng của phân cụm (7)
  • 1.3 Các yêu cầu cơ bản của phân cụm (8)
  • 2.1 Tương tự và bất tương tự (9)
  • 2.2 Khoảng cách (10)
  • 2.3 Ví dụ (12)
  • 2.4 Sự tương đồng và các thước đo liên kết cho các cặp biến (17)
  • 3.1 Giới thiệu (20)
  • 3.2 Phương pháp kết hợp cụm thứ bậc (21)
    • 3.2.1 Thuật toán chung (22)
    • 3.2.2 Phân cụm theo liên kết đơn (22)
    • 3.2.3 Phân cụm theo liên kết hoàn chỉnh (25)
    • 3.2.4 Phân cụm theo liên kết trung bình (27)
    • 3.2.5 Ward’s method (29)
    • 3.2.6 Đánh giá các thuật toán kết hợp cụm thứ bậc (30)
  • 3.3 Nhận xét (30)
  • 3.4 Lập trình trên R (30)
  • 4.1 Phương pháp K-MEAN (35)
  • 4.2 Phần phân tích bằng Excel (38)
  • 5.1 Phân cụm dựa trên mô hình thống kê (41)
  • 5.2 Phân tích bằng R (42)
  • 6.1 Tổng quan về chia tỉ lệ đa chiều (48)
  • 6.2 Khi nào sử dụng MDS (49)
  • 6.3 Thuật toán (49)
  • 6.4 Phân tích bằng Excel (51)
  • 6.5 Kết luận (53)
  • 7.1 Giới thiệu (54)
  • 7.2 Khai triển toán học của phân tích tương ứng (54)
  • 7.3 Sự quán tính (58)
  • 7.4 Lập trình trên R (59)

Nội dung

BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION Giới thiệu 1.1 Khái niệm và mục tiêu của phân cụm 1.1.1 Khái niệm Phân cụm dữ liệu là gì? Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thành các nhóm dữ liệu với trong đó các đối tượng tương tự như nhau. Trong mỗi nhóm, một số chi tiết có thể không quan tâm đến để đổi lấy dữ liệu đơn giản hóa. Hay ta có thể hiểu “Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự nhau theo một tính chất nào đó, những đối tượng không tương tự tính chất sẽ ở nhóm khác.” Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ Hiểu đơn giản: Phân cụm là gom các đối tượng dữ liệu: + Tương tự với 1 đối tượng khác trong cùng cụm + Không tương tự với các đối tượng trong các cụm

Khái niệm và mục tiêu của phân cụm

Khái niệm

Phân cụm dữ liệu là gì?

Phân cụm dữ liệu là quá trình chia nhỏ một cơ sở dữ liệu lớn thành các nhóm, trong đó các đối tượng tương tự được nhóm lại với nhau Mỗi nhóm có thể bỏ qua một số chi tiết không quan trọng để đơn giản hóa dữ liệu Nói cách khác, phân cụm dữ liệu tổ chức các đối tượng thành từng nhóm dựa trên những tính chất tương đồng, trong khi những đối tượng không tương đồng sẽ được phân loại vào nhóm khác.

Phân cụm dữ liệu không yêu cầu định nghĩa trước các mẫu dữ liệu huấn luyện, do đó có thể xem đây là phương pháp học bằng quan sát Ngược lại, phân lớp dữ liệu là hình thức học dựa trên các ví dụ đã được cung cấp.

Hiểu đơn giản: Phân cụm là gom các đối tượng dữ liệu:

+ Tương tự với 1 đối tượng khác trong cùng cụm

+ Không tương tự với các đối tượng trong các cụm

Trong trường hợp này, chúng ta có thể xác định 4 cụm dựa trên dữ liệu đã cho Các tiêu chí “tương tự” để phân cụm là khoảng cách, trong đó hai hoặc nhiều đối tượng thuộc cùng một nhóm được “đóng gói” theo một khoảng cách nhất định Đây là phương pháp phân cụm dựa trên khoảng cách.

Phân cụm dữ liệu dựa vào khái niệm là một phương pháp phân nhóm các đối tượng, trong đó hai hay nhiều đối tượng được xem là thuộc cùng một nhóm nếu chúng có một định nghĩa khái niệm chung.

Mục tiêu của phân cụm

Mục tiêu của phân cụm dữ liệu là xác định các nhóm nội tại trong một bộ dữ liệu không có nhãn, nhằm chia các đối tượng thành các cụm "thuần nhất" và phân biệt chúng với nhau Các nhóm đối tượng này cần thỏa mãn các tiêu chí nhất định để đảm bảo tính đồng nhất và khác biệt.

1 Độ tương tự của các đối tượng trong mỗi nhóm cao nhất có thể (tiêu chuẩn liên kết chặt)

2 Các đối tượng trong các nhóm khác nhau phân biệt nhất có thể (tiêu chuẩn tách rời)

−→Cần 1 độ đo đánh giá độ tương tự hay độ khác biệt gọi là hệ số tương tự.

Một thách thức phổ biến trong phân cụm là sự hiện diện của dữ liệu nhiễu, thường xuất phát từ quá trình thu thập thông tin không chính xác hoặc không đầy đủ.

Cần thiết phải phát triển một chiến lược tiền xử lý dữ liệu để khắc phục hoặc loại bỏ nhiễu, trước khi tiến hành phân tích cụm dữ liệu.

Dò tìm đối tượng ngoại lai là một hướng nghiên cứu quan trọng trong phân cụm, với chức năng xác định nhóm nhỏ các đối tượng dữ liệu bất thường so với dữ liệu trong cơ sở dữ liệu Những đối tượng này không tuân theo các hành vi hoặc mô hình dữ liệu, nhằm tránh ảnh hưởng tiêu cực đến quá trình và kết quả của phân cụm.

Ví dụ : Loại bỏ các biến nhiễu:

Các ứng dụng của phân cụm

Kỹ thuật phân cụm được ứng dụng rộng rãi trong nhiều lĩnh vực đời sống và đây là 1 số lĩnh vực cụ thể:

Trong lĩnh vực thương mại, việc xác định nhóm khách hàng quan trọng là rất cần thiết Điều này được thực hiện thông qua việc phân tích các thuộc tính đặc trưng tương đồng và những thông tin chi tiết của họ trong các bản ghi mua bán từ cơ sở dữ liệu.

Nhóm 6 Phân tích số liệu

• Sinh học: phân loại động, thực vật qua các chức năng gen tương đồng của chúng;

• Thư viện : phân loại các cụm sách có nội dung và ý nghĩa tương đồng nhau để cung cấp cho độc giả, cũng như đặt hàng với nhà cung cấp;

Bảo hiểm cần nhận diện nhóm tham gia có chi phí yêu cầu bồi thường trung bình cao và xác định gian lận thông qua các mẫu cá biệt.

• Quy hoạch đô thị : nhận dạng các nhóm nhà theo kiểu, vị trí địa lí, giá trị nhằm cung cấp thông tin cho quy hoạch đô thị

• Nghiên cứu địa chấn : phân cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho việc nhận dạng các vùng nguy hiểm;

Các yêu cầu cơ bản của phân cụm

Sau đây là những yêu cầu cơ bản của thuật toán phân cụm:

Cơ sở dữ liệu có khả năng mở rộng quy mô, cho phép lưu trữ hàng trăm đến hàng triệu đối tượng Tuy nhiên, việc phân cụm trên một tập dữ liệu lớn có thể ảnh hưởng đến kết quả phân tích.

• Khả năng thích nghi với các kiểu thuộc tính khác nhau: kiểu số, như kiểu nhị phân, kiểu tường minh (định danh - không thứ tự).

Khả năng thích nghi với dữ liệu nhiễu là yếu tố quan trọng trong phân tích dữ liệu Một số thuật toán phân cụm có thể nhạy cảm với loại dữ liệu này, dẫn đến chất lượng phân cụm không đạt yêu cầu.

Các thuật toán phân cụm ít nhạy cảm với thứ tự của dữ liệu đầu vào, nghĩa là khi sử dụng cùng một tập dữ liệu nhưng với thứ tự khác nhau, kết quả phân cụm có thể rất khác nhau.

• Phân cụm ràng buộc: nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới các loại ràng buộc khác nhau.

• Dễ hiểu và dễ sử dụng: Người sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng.

Khoảng cách và hệ số tương tự giữa hai đối tượng

Tương tự và bất tương tự

Sự tương tự và bất tương tự giữa các đối tượng dữ liệu không có một định nghĩa duy nhất Các khái niệm này phụ thuộc vào ngữ cảnh và tiêu chí cụ thể được sử dụng để so sánh.

• Loại dữ liệu khảo sát.

• Loại tương tự cần thiế.t

Tương tự và bất tương tự giữa các đối tượng thường được biểu diễn qua độ đo khoảng cách d(x,y).

Mọi độ đo khoảng cách lý tưởng phải có giá trị bằng 1 và đáp ứng các điều kiện sau: d(x,y) là khoảng cách giữa hai đối tượng x và y, thể hiện sự khác biệt giữa chúng, được tính toán dựa trên kiểu của các biến hoặc thuộc tính.

Vấn đề kiểu dữ liệu/ đối tượng gom cụm

Phân loại các kiểu dữ liệu:

1 Dựa vào bản chất của biến

• Liên tục: miền giá trị của biến là 1 khoảng, vô hạn không đếm được.

• Rời rạc: miền giá trị là tập hữu hạn, đếm được.

• Nhị phân: là TH của thuộc tính rời rạc mà miền giá trị chỉ có 2 phần tử được diễn tả như: Yes/No,Nam/Nữ, 1/0, False/True.

Nhóm 6 Phân tích số liệu

2 Dựa vào thang đo lường:

Trong đó: n – đối tượng p- biến/thuộc tính

Trong đó: d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính.

Khoảng cách

Khoảng cách giữa đối tượng x và y, thể hiện sự khác biệt giữa đối tượng x, y, được tính tùy thuộc vào kiểu của các biến/thuộc tính.

Có rất nhiều cách tính khoảng cách:

+ Trực tiếp: Euclidean,Manhattan,Minkowski

Khoảng cách Euclidean giữa hai quan sát p chiều là loại khoảng cách phổ biến nhất, được tính bằng công thức hình học trong không gian đa chiều Công thức tính khoảng cách này được biểu diễn như sau: \$$d(x, y) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + \ldots + (x_p - y_p)^2}\$$ Khoảng cách này giúp đo lường sự khác biệt giữa các điểm trong không gian p chiều.

- Khoảng cách thống kê giữa 2 thống kê có dạng: d(x, y) q (x−y) T A.(x−y)

A=S −1 ,S chứa các phương sai và hiệp phương sai mẫu.

Khi không có ý tưởng rõ ràng về kiến thức nhóm khoảng cách, chúng ta có thể áp dụng công thức Minkowski Đối với hai đối tượng dữ liệu m-chiều, x = (x1, x2, , xm) và y = (y1, y2, , ym), với m là số nguyên dương, khoảng cách giữa chúng được tính bằng công thức d(x, y) = [n.

|xi−y i | m ] m 1 (2.2) m= 2 :d(x, y)trở thành khoảng cách Euclidean m= 1: Khoảng cách 2 điểm trong không gian p chiều, trở thành khoảng cách Manhattan. d(x, y) p

Số liệu Canberra tương tự như khoảng cách Manhattan, nhưng có sự khác biệt trong cách tính toán Cụ thể, Canberra tính toán sự khác biệt tuyệt đối giữa các biến của hai đối tượng, sau đó chia cho tổng các giá trị của biến tuyệt đối trước khi thực hiện phép tính tổng.

|xi−yi| (x i +y i ) (2.4) Hình minh họa biểu diễn cho các công thức tính khoảng cách.

Nhóm 6 Phân tích số liệu

Ví dụ

Dữ liệu mẫu và vẽ biểu đồ phân tán trong R:

Ví dụ name= c("Trang", "Minh","Ngoc","Ánh","Lan","Huy") height = c(156,180,162,175,158,170) weight = c(45,70,50,68,44,68) plot(height,weight, main = " ", xlab="Height",ylab = "Weight",pch, col = "blue") text (height,weight,name, cex = 1, col = "red")

- Dựa vào biểu đồ ta thấy có thể chia bộ dữ liệu thành 3 cụm gồm: Trang -Lan, Ngọc, Huy-Ánh-Minh.

Chuẩn hóa bộ dữ liệu: Đưa các giá trị dữ liệu về cùng 1 đơn vị.

Chuẩn hóa zHeight = scale(height) zWeight = scale(weight) df = data.frame(name,height,weight,zHeight, zWeight)

Tính khoảng cách của 1 số cặp dữ liệu sau khi chuẩn hóa:

Sử dụng các công thức tính khoảng cách đưa ra ma trận khoảng cách giữa các biến:

Euclidean df = data.frame(name,zheight,zweight) dist(df1[,2:3]„method="euclidean")

Manhattan df = data.frame(name,zHeight,zWeight) dist(df1[,2:3]„method="manhattan")

Nhóm 6 Phân tích số liệu

Nhìn vào hai ma trận khoảng cách, chúng ta có thể nhóm các giá trị có khoảng cách nhỏ thành một cụm, chẳng hạn như 1 và 5, 2 và 4, trong khi các đối tượng có khoảng cách xa nhau, như 1 và 2, không thể gộp lại Mặc dù kết quả ma trận khoảng cách trong từng công thức có giá trị khác nhau, nhưng chúng đều dẫn đến những kết luận tương tự.

Khi các mục không thể được đo lường bằng thước đo p chiều, việc so sánh chúng thường dựa trên sự hiện diện hoặc vắng mặt của các đặc điểm nhất định Các mục tương tự thường chia sẻ nhiều đặc điểm chung hơn so với các mục khác Sự hiện diện hoặc vắng mặt của một đặc tính có thể được mô tả bằng cách sử dụng một "biến nhị phân", trong đó giá trị 1 đại diện cho sự có mặt của đặc tính và giá trị 0 đại diện cho sự vắng mặt.

Ví dụ: Vớip= 5, "điểm" cho 2 mục i và k có thể được sắp xếp như sau:

0 nếu x ij =x kj = 1hoặcx ij =x kj = 0

Và khoảng cách Euclidean bình phương: p

(xij−xkj) 2 sẽ cung cấp 1 đếm số không khớp - nghĩa là các mục khác nhau.

Mặc dù khoảng cách dựa trên (2.5) có thể đo độ tương đồng, nhưng cần cân bằng trọng số giữa các phần 1-1 và 0-0 Trong một số trường hợp, 1-1 thể hiện sự tương đồng mạnh hơn so với 0-0 Để xử lý sự khác biệt này, một số phương án xác định hệ số tương tự đã được đề xuất Chúng ta sẽ sắp xếp tần số của các kết quả trùng khớp và khác nhau giữa các mục i và k thành một bảng dự phòng.

• a: Tổng số thuộc tính mài vàk đều có giá trị là 1

• b: Tổng số thuộc tính trong đó thuộc tính củai là 1 và thuộc tính củak là 0

• c: Tổng số thuộc tính trong đó thuộc tính củai là 0 và thuộc tính củak là 1

• d: Tổng số thuộc tính mài vàk đều có giá trị là 0

Với cặp i, k ở trên ta có:a= 2, b=c=d= 1

Bảng 12.1liệt kê các hệ số tương tự phổ biến được xác định theo tần số trong (2.6)

Table 12.1 Similarity Coefficients for Clustering Items*

1.a+d p Equal weights for 1-1 matches and 0-0 matches

2(a+d) +b+c Double weight for 1-1 matches and 0-0 matches

3 a+d a+d+ 2(b+c) Double weight for unmatched pairs

5 a a+b+c No 0-0 matches in numerator or denominator.

(The 0-0 matches are treated as irrelevant.)

2a+b+c No 0-0 matches in numerator or denominator.

7 a a+ 2(b+c) No 0-0 matches in numerator or denominator.

Double weight for unmatched pairs.

8 a b+c Ratio of matches to mismatches with 0-0 matches excluded.

Nhóm 6 Phân tích số liệu

Hệ số 1, 2 và 3 có mối quan hệ đơn điệu, trong khi các hệ số 5, 6, 7 cũng duy trì tính tương đối Bất kỳ lựa chọn nào của hệ số 1, 2, 3 trong bảng 12.1 sẽ dẫn đến việc tạo ra các nhóm giống nhau, tương tự như vậy, bất kỳ lựa chọn nào của hệ số 5, 6, 7 cũng sẽ tạo ra các nhóm giống hệt nhau.

Height Weight Eye color Hair color Handedness Gender Individual 1 68 in 140 lb green blond right female

Individual 2 72 in 185 lb brown brown right male

Individual 3 67 in 165 lb blue blond right male

Individual 4 64 in 120 lb brown brown right female

Individual 5 76 in 210 lb brown brown left male

Xác định 6 biến nhị phânX 1 , X 2 , X 3 , X 4 , X 5 , X 6 như sau:

Ta có bảng choIndividual 1 vàIndividual 2 với p= 6như sau:

Và số lượng các kết quả trùng khớp và khác nhau được chỉ ra trong mảng 2 chiều:

Sử dụng hệ số tương tự 1, hệ số mà trọng số của 1-1 và 0-0 bằng nhau ta có: a+d p =1 + 0

Tiếp tục với hệ số tương tự 1, ta tính các hệ số còn lại cho các cặp Ta được ma trận đối xứng:

Dựa vào hệ số, ta có thể thấy:

• Cặp 2 và 5 giống nhau nhất

• Cặp 1 và 5 khác nhau nhất.

Nếu chia thành 2 nhóm tương đối giống nhau ta có thể tạo thành 2 nhóm (1 3 4) và ( 2 5).

Bằng cách xây dựng khoảng cách và các điểm tương đồng, chúng ta có thể tạo ra những điểm tương đồng từ khoảng cách Chẳng hạn, ta có thể thiết lập giá trị sik = 1.

Trong đó, \$0 < s_{ik} \leq 1\$ là điểm tương đồng giữa các mục \$i\$ và \$k\$, và \$d_{ik}\$ là khoảng cách tương ứng Tuy nhiên, các khoảng cách này không phải lúc nào cũng được xây dựng từ các điểm tương đồng, mà chỉ có thể thực hiện nếu ma trận các điểm tương đồng là không âm Với điều kiện xác định không âm và độ tương tự lớn nhất được chia tỉ lệ, ta có \$s'_{ii} = 1\$ và \$d_{ik} = q\$.

Sự tương đồng và các thước đo liên kết cho các cặp biến

Chúng ta đã xem xét các phương pháp tương tự cho các mục, và trong một số ứng dụng, các biến cần được nhóm lại thay vì các mục Độ tương đồng giữa các biến thường được đo bằng hệ số tương quan mẫu.

Khi các biến là nhị phân, dữ liệu có thể được tổ chức thành một bảng dự phòng, trong đó các biến mô tả danh mục thay vì các mục Mỗi cặp biến sẽ có n mục được phân loại trong bảng, và với mã hóa 1 và 0 thông thường, bảng sẽ được cấu trúc như sau:

Nhóm 6 Phân tích số liệu

Công thức tương quan thông thường được áp dụng cho các biến nhị phân trong bảng dự phòng: r= ad−bc

Hệ số tương quan được định nghĩa bởi công thức \((a+b)(c+d)(a+c)(b+d)\) và có thể được xem như thước đo mức độ tương đồng giữa hai biến Khi bình phương hệ số này, nó liên quan đến thống kê để kiểm tra tính độc lập của hai biến.

Bảng 2.9 có khả năng phát triển các thước đo liên kết hoặc độ tương tự tương tự như các phép đo trong Bảng 12.1 Sự thay đổi duy nhất cần thiết là thay thế n (số mục) bằng p (số biến).

Nhận xét về sự tương tự

Có nhiều phương pháp để đánh giá mức độ tương đồng giữa các cặp đối tượng, trong đó sinh viên thường sử dụng khoảng cách hoặc các hệ số trong Bảng 12.1 để thực hiện phân cụm Tuy nhiên, trong một số trường hợp, đầu vào cho các thuật toán phân cụm có thể chỉ là các tần số đơn giản.

Ví dụ 2.2 (Đo lường sự giống nhau của các ngôn ngữ)

Ý nghĩa của các từ có thể thay đổi theo thời gian, nhưng các số 1, 2, 3, lại là một ngoại lệ rõ ràng Do đó, việc so sánh giữa các ngôn ngữ có thể bắt đầu từ các chữ số Bảng 12.2 trình bày 10 chữ số đầu tiên bằng tiếng Anh, tiếng Ba Lan, tiếng Hungary, và 8 ngôn ngữ hiện đại khác của Châu Âu.

Các từ trong tiếng Pháp, tiếng Tây Ban Nha và tiếng Ý đều bắt đầu bằng chữ cái "u" Để minh họa, chúng ta có thể so sánh các ngôn ngữ này qua chữ cái đầu tiên của các số Hai từ cho cùng một số trong hai ngôn ngữ khác nhau được coi là đồng nhất nếu chúng có cùng chữ cái đầu tiên và không đồng nhất nếu khác nhau Bảng 12.2 trình bày tần số trùng khớp cho các số từ 1 đến 10, được thể hiện trong Bảng 12.3.

Table 12.3 Concordant First Letters for Numbers in 11 Languages

E N Da Du G Fr Sp I P H Fi

Tiếng Anh và tiếng Na Uy có cùng chữ cái đầu tiên cho 8 trong số 10 cặp từ, với các tần số được tính toán tương tự Kết quả trong Bảng 12.3 xác nhận trực quan từ Bảng 12.2, cho thấy tiếng Anh, tiếng Na Uy, tiếng Đan Mạch, tiếng Hà Lan và tiếng Đức tạo thành một nhóm Ngược lại, tiếng Pháp, tiếng Tây Ban Nha, tiếng Ý và tiếng Ba Lan có thể được nhóm lại, trong khi tiếng Hungary và tiếng Phần Lan dường như đứng riêng.

Phương pháp phân cụm theo thứ bậc

Giới thiệu

Kỹ thuật phân cụm theo thứ bậc có hai phương pháp chính: một là kết hợp các cụm nhỏ thành cụm lớn, và hai là chia nhỏ các cụm lớn thành các cụm nhỏ hơn.

Phương pháp kết hợp cụm thứ bậc (Agglomerative) bắt đầu với các phần tử riêng lẻ và tiến hành kết hợp những cụm có khoảng cách gần nhau hoặc tương đồng nhất Quá trình này được lặp lại cho đến khi chỉ còn lại một cụm duy nhất.

Phương pháp chia cụm thứ bậc (Devisive) bắt đầu với một cụm lớn và tiến hành chia thành hai cụm con, đảm bảo rằng các phần tử trong mỗi cụm con cách xa nhau Quá trình này tiếp tục cho đến khi mỗi cụm chỉ còn lại một phần tử duy nhất.

Kết quả của hai phương pháp phân chia và phương pháp kết hợp được thể hiện qua lược đồ hai chiều gọi là Dendogram Bài báo cáo này sẽ tập trung vào việc tìm hiểu các phương pháp phân cụm kết hợp theo thứ bậc, đặc biệt là các phương pháp liên kết.

• Liên kết đơn (Single linkage) : minimum distance

• Liên kết hoàn chỉnh (Complete linkage) : maximum distance

• Liên kết trung bình (Average linkage) : average distance

Phương pháp kết hợp cụm thứ bậc

Thuật toán chung

Trong thuật toán kết hợp cụm thứ bậc, cách tính khoảng cách giữa các cụm sẽ ảnh hưởng đến kết quả phân cụm Mặc dù có nhiều phương pháp khác nhau, nhưng phương pháp kết hợp cụm chỉ có một thuật toán chung, với sự khác biệt chủ yếu nằm ở cách tính khoảng cách giữa các cụm.

1 Bắt đầu với N cụm, mỗi cụm chứa một phần tử duy nhất và lập ma trận khoảng cách đối xứng

2 Trên ma trận khoảng cách, tìm khoảng cách của các cặp gần nhất (có sự tương đồng nhau nhất). Giả sử khoảng cách giữa hai cụm gần nhấtU vàV làdU V.

3 Hợp nhất cụm U vàV Gán nhãn cho cụm mới này là (U V) Cập nhập lại ma trận khoảng cách bằng cách:

• Xóa các hàng và cột tương ứng với cụmU vàV.

• Thêm một hàng và một cột gồm các khoảng cách giữa cụm(U V)và các cụm còn lại.

4 Lặp lại bước 2 và 3 Tổng lần lặpN−1 lần Tất cả các phần tử sẽ tạo thành một cụm duy nhất sau khi kết thúc thuật toán.

Phân cụm theo liên kết đơn

Phân cụm theo liên kết đơn là một phương pháp đơn giản để kết hợp các cụm Thuật toán này sử dụng khoảng cách hoặc sự tương đồng giữa các cặp phần tử làm đầu vào Mỗi phần tử bắt đầu như một cụm riêng biệt, và thuật toán phân cụm phân cấp sẽ hợp nhất các cụm nhỏ hơn có khoảng cách nhỏ nhất hoặc độ tương đồng lớn nhất để tạo ra các cụm lớn hơn.

Bắt đầu với N cụm, mỗi cụm chứa 1 phần tử, ta lập ma trận khoảng cách cấp N là D = {d_{ik}} Tiếp theo, tìm khoảng cách nhỏ nhất trong D và hợp nhất các phần tử tương ứng Giả sử khoảng cách giữa hai cụm gần nhất U và V là d_{UV}, ta gộp U với V để tạo thành cụm (UV) Đối với Bước 3 của thuật toán, khoảng cách giữa (UV) và bất kỳ cụm W nào khác được tính bằng công thức: \$$d((UV), W) = \min\{d_{UW}, d_{VW}\}\$$

Kết quả của phân cụm liên kết đơn được thể hiện qua đồ thị dạng dendrogram, trong đó các cành đại diện cho các cụm Các nhánh kết hợp tại các nút dọc theo trục khoảng cách, cho thấy mức độ hợp nhất giữa các cụm.

Xét ma trận khoảng cách của năm đối tượng như sau:

Ta coi mỗi đối tượng là một cụm riêng biệt Ta có khoảng cách ngắn nhất giữa các cụm là: min{dik}=d53= 2

Vậy kết hợp 5 và 3 thành một cụm (35) Tính các khoảng cách từ cụm (35) đến các phần tử còn lại là 1,2,4: d(35)1 = min{d31, d51}=min{3,11}= 3 d (35)2 = min{d32, d 52 }=min{7,10}= 7 d (35)4 = min{d34, d 54 }=min{9,8}= 8

Xóa các hàng và cột tương ứng với phần tử thứ 3 và thứ 5, sau đó thêm một hàng và cột cho cụm (35) để tạo ra ma trận khoảng cách mới.

Nhóm 6 Phân tích số liệu

Ta có khoảng cách ngắn nhất trong ma trận trên làd (35)1 = 3 Vậy ta ghép (1,3,5) thành nhóm (135). Tiếp đó ta tính: d(135)2 = min d(35)2, d12 =min{7,9}= 7 d(135)4 = min d(35)4, d14 =min{8,6}= 6

Xóa đi các hàng và các cột tương ứng với các chỉ số (35) và 1, sau đó thêm một hàng và cột cho cụm

(135) ta được ma trận mới:

Khoảng cách ngắn nhất trong ma trận trên làd42= 5 Vậy ta ghép 2 và 4 thành nhóm (24) Tại đây, ta có hai cụm (135) và (24), vàd(24)(135)=min d2(135), d4(135) =min{6,7}= 6

Cuối cùng, cụm (24) kết hợp với (135) thành một cụm duy nhất (12345), với khoảng cách gần nhất là 6. Sau đây là biểu đồ 2 chiều của ví dụ trên:

Phân cụm theo liên kết hoàn chỉnh

Phương pháp phân cụm liên kết hoàn chỉnh tương tự như phương pháp liên kết đơn, nhưng khác biệt ở cách tính khoảng cách giữa các cụm Khoảng cách giữa hai cụm được xác định dựa trên khoảng cách giữa hai phần tử xa nhất trong mỗi cụm.

Thay đổi công thức tính khoảng cách giữa các cụm ở Bước 3 Khoảng cách giữa (UV) và bất kỳ cụm

W nào khác được tính bằng công thức: d(U V )W =max{dU W, dV W} (3.2)

Xét khoảng cách của năm đối tượng như sau:

Ta có: min{dik}=d53= 2 Vậy kết hợp 5 và 3 thành một cụm (35)

Tính toán khoảng cách từ cụm (35) đến các phần tử còn lại, ta có: \$d(35)_1 = \max\{d_{31}, d_{51}\} = \max\{3, 11\} = 11\$, \$d(35)_2 = \max\{d_{32}, d_{52}\} = \max\{7, 10\} = 10\$, và \$d(35)_4 = \max\{d_{34}, d_{54}\} = \max\{9, 8\} = 9\$ Sau đó, xóa các hàng và cột tương ứng với phần tử thứ 3 và thứ 5, đồng thời thêm một hàng và cột cho cụm (35), ta thu được ma trận khoảng cách mới.

Nhóm 6 Phân tích số liệu

Dod24= 5 là khoảng cách ngắn nhất nên ta ghép 2 và 4 thành nhóm (24).

Tiếp đó ta tính: d (35)(24) = max d (35)2 , d (35)4 =max{10,9}= 10 d (24)1 = max{d21, d41}=max{9,6}= 9

Xóa đi các hàng và các cột tương ứng với phần tử 2 và 4, sau đó thêm một hàng và cột cho cụm (24) ta được ma trận mới:

Khoảng cách ngắn nhất trong ma trận trên làd (24)1 = 9 Vậy ta ghép 1 và (24) thành nhóm (124). Tại đây, ta có hai cụm (35) và (124), vàd (35)(124) =max d (35)1 , d (35)(24) =max{11,10}= 11

Kết hợp cụm (124) với (35) thành một cụm duy nhất (12345), với khoảng cách gần nhất là 11. Biểu đồ 2 chiều bằng cách phân cụm theo liên kết hoàn chỉnh:

Phân cụm theo liên kết trung bình

Phương pháp phân cụm liên kết trung bình xác định khoảng cách giữa hai cụm dựa trên khoảng cách trung bình của tất cả các cặp phần tử, với mỗi phần tử trong cặp thuộc về một cụm khác nhau.

Thay đổi công thức tính khoảng cách giữa các cụm ở Bước 3 Khoảng cách giữa (UV) và bất kỳ cụm

W nào khác được tính bằng công thức: d (U V )W P i

(3.3) Trong đó,dik là khoảng cách giữa phần tửitrong cụm (UV) và phần tử ktrong cụm W,N (U V ) và

NW là số phần tử trong cụm (UV) và W tương ứng.

Nhóm 6 Phân tích số liệu

Xét khoảng cách của năm đối tượng như sau:

Kết hợp 5 và 3 thành một cụm (35) do có khoảng cách nhỏ nhất: min{dik}=d53= 2 Tính các khoảng cách từ cụm (35) đến các phần tử còn lại: d (35)1 = AV G(d 31 , d 51 ) =3 + 11

Xóa các hàng và cột tương ứng với phần tử thứ 3 và thứ 5, sau đó thêm một hàng và cột cho cụm (35) để tạo ra ma trận khoảng cách mới.

Lặp lại các Bước 2, Bước 3, ở những vòng lặp tiếp theo, ta sẽ có ma trận khoảng cách là:

Sau khi gộp cụm 2 và 4:

Sau khi gộp cụm 1 và (35):

Cuối cùng, kết hợp cụm (24) với (135) thành một cụm duy nhất (12345).

Ta thu được biểu đồ Dendogram:

Ward’s method

Phương pháp Ward được phát triển nhằm tối thiểu hóa sự mất mát thông tin khi kết hợp hai cụm Mức độ mất mát thông tin được xác định thông qua tổng bình phương sai số (ESS) trong từng cụm.

Cho cụm dữ liệu k gồm K phần tử , ESS sẽ được tính bằng:

(xj−x)¯ T (xj−x)¯ (3.4) trong đó,xj là điểm dữ liệu thứ j,x¯ là giá trị trung bình của các điểm dữ liệu

Tại mỗi bước, xem xét tất cả các cặp cụm có thể và kết hợp hai cụm để đạt được mức tăng ESS tối thiểu Mỗi cụm ban đầu chỉ chứa một phần tử, và với n cụm, ta có ESSk = 0, với k = 1, 2, , n.

Giả sử ở một cấp nào đó, có n cụm đã được phân chia, ESS được tính bằng:

Kết quả từ phương pháp Ward được thể hiện qua biểu đồ dendrogram, trong đó trục tung biểu thị các giá trị của ESS tại các mức độ hợp nhất khác nhau.

Phương pháp Ward cho rằng các cụm quan sát đa biến thường có hình dạng gần giống hình elip Đây là nền tảng cho các phương pháp phân cụm không theo thứ bậc.

Nhóm 6 Phân tích số liệu nhằm tối ưu hóa một số tiêu chí để phân chia dữ liệu thành một số nhóm elip nhất định Chúng ta sẽ thảo luận về phương pháp phân cụm không theo thứ bậc trong phần tiếp theo.

Đánh giá các thuật toán kết hợp cụm thứ bậc

Phương pháp liên kết đơn thường tạo ra các cụm dài và lỏng lẻo, trong đó các phần tử khác biệt thường được nhóm lại với nhau Do đó, phương pháp này ít được sử dụng trong các bài toán thực tế.

• Phương pháp liên kết hoàn chỉnh: tạo ra các cụm có đường kính gần bằng nhau, tuy nhiên khá nhạy cảm với nhiễu.

Phương pháp liên kết trung bình kết hợp đặc điểm của hai phương pháp trước đó và ít bị ảnh hưởng bởi nhiễu Phương pháp này có xu hướng gộp các cụm có phương sai nhỏ và tương đồng với nhau.

Phương pháp Ward là một kỹ thuật phân cụm có xu hướng kết hợp các nhóm với số lượng quan sát nhỏ và có sự tương đồng cao Tuy nhiên, phương pháp này cũng rất nhạy cảm với nhiễu.

Nhận xét

Có nhiều phương pháp để tính khoảng cách giữa hai cụm, nhưng hầu hết đều dựa trên một thuật toán kết hợp cụm chung.

• Giống như các phương pháp phân cụm khác, đặc điểm yếu nhất của các phương pháp phân cụm là rất nhạy cảm với nhiễu.

Trong phân cụm theo thứ bậc, một khi điểm dữ liệu đã được phân vào một cụm ở bước đầu tiên, nó sẽ không thể được chuyển sang cụm khác Do đó, việc kiểm tra cấu hình cuối cùng của cụm là rất quan trọng để đảm bảo tính hợp lý.

• Trong trường hợp thực tế, ta nên dùng nhiều phương pháp phân cụm khác nhau để biết được phương pháp nào là tốt nhất cho bộ dữ liệu đó.

Tính ổn định của thuật toán có thể được đánh giá thông qua việc thêm điểm nhiễu vào dữ liệu và kiểm tra kết quả trước và sau khi thêm Nếu sự phân chia vẫn tương ứng, điều này chứng tỏ rằng cách phân chia có tính ổn định cao.

Trong ma trận khoảng cách, có thể có nhiều điểm dữ liệu có khoảng cách tương đương Khi lựa chọn giữa những điểm này để kết hợp thành cụm, việc chọn các điểm khác nhau sẽ dẫn đến việc tạo ra các dendrogram khác nhau.

Lập trình trên R

Ta đưa vào bộ số liệu IRIS trong library (datasets)

Bài toán này liên quan đến việc phân cụm ba loại hoa: setosa, versicolor và virginica, dựa trên các tham số chiều dài và chiều rộng của đài và cánh hoa Các biến trong bài toán đều là số đo, cho phép chúng ta áp dụng các phương pháp phân tích để phân chia các loại hoa khác nhau chỉ dựa vào các thông số này.

Chúng ta sẽ áp dụng mô hình phân cụm thứ bậc, sử dụng hai cột 3 và 4 của bộ số liệu Để thực hiện phân cụm thứ bậc, cần xây dựng một ma trận khoảng cách giữa các giá trị quan sát.

Chúng ta sử dụng lệnh dist, viết tắt của distances, để tính khoảng cách giữa hai cột, cụ thể là cột thứ 3 và 4, tương ứng với hai biến petal.length và petal.width, nhằm phân cụm số liệu.

Sử dụng method = “ euclidean” đó là khoảng cách ngắn nhất theo đường chim bay giữa hai điểm ngoài ra ta có thể dùng method khác như là maxium, manhatan .

Tuy nhiên với số liệu thông thường ta sử dụng khoảng cách euclidean là phù hợp nhất.

Chúng ta sẽ xây dựng một mô hình phân cụm thứ bậc bằng lệnh hclust, sử dụng ma trận khoảng cách đã khai báo trước đó Phương pháp mặc định cho phân cụm thứ bậc là complete, tức là khoảng cách xa nhất giữa hai điểm thuộc hai cụm được chọn.

Biểu đồ dendogram của mô hình phân cụm thứ bậc cho phép chúng ta cắt ở các điểm khác nhau để tạo ra những phân cụm khác nhau Ưu điểm của mô hình này là khả năng xây dựng trước và lựa chọn số cụm phù hợp nhất với bài toán cụ thể.

Nhóm 6 Phân tích số liệu

Để chia mô hình hier_clust thành 3 cụm, ta sử dụng lệnh cutree và gán kết quả vào biến clusterCut.

ClusterCut là một vector dự báo giá trị của từng cụm dựa trên các quan sát Trong đó, có 150 quan sát, mỗi quan sát tương ứng với một cụm mà chúng ta gán cho nó.

Tương tự ta dùng lệnh table để xem là những cụm đó như thế nào.

Ta thấy ở đây cụm 1 gồm toàn bộ 50 quan sát ở setosa , cụm 2 gồm 50 quan sát ở virginica và vẫn còn 21 quan sát ở versicolo, cụm thứ 3 chỉ có 29 quan sát của versicolo.

Trong hình vẽ, các cụm dự báo được thể hiện bằng giá trị ký tự, trong khi các màu sắc đại diện cho giá trị thực tế của các loài hoa Chúng ta nhận thấy có một số lượng lớn hình tam giác, cho thấy giá trị thuộc về loài hoa thứ hai nhưng lại bị gán vào cụm thứ ba.

Có thể thay đổi 1 chút , thay method bằng average để có thể phân biệt tốt hơn Ta sẽ chạy lại toàn

Nhóm 6 Phân tích số liệu bộ số liệu.

Hiện tại, chúng ta chỉ có ba giá trị, trong đó có một giá trị tam giác bị sai lệch Tất cả các giá trị này đều nằm ở ranh giới giữa hai cụm, do đó có thể chấp nhận được.

Giá trị trung bình là khoảng cách trung bình giữa tất cả các khoảng cách giữa các quan sát của hai cụm Khoảng cách này mang lại thông tin chính xác hơn so với việc sử dụng khoảng cách xa nhất, vì những giá trị này có thể bị ảnh hưởng bởi các giá trị ngoại biên.

Phương pháp phân cụm không theo thứ bậc

Thuật toán K-means là một phương pháp phân tích tính chất cụm của dữ liệu, thường được áp dụng trong khai phá dữ liệu và thống kê Phương pháp này phân vùng dữ liệu thành K cụm khác nhau, giúp xác định nhóm mà dữ liệu thuộc về.

Phương pháp này nhằm mục đích phân chia các đối tượng thành K nhóm, với K là số cụm đã được xác định trước và là một số nguyên dương Nhờ vào việc không cần lưu trữ nhiều thông tin trong quá trình hoạt động, phương pháp này có thể áp dụng hiệu quả cho các tập dữ liệu lớn hơn so với các kỹ thuật phân cụm theo thứ bậc.

Một phương pháp để bắt đầu là lựa chọn ngẫu nhiên các điểm khởi đầu từ tập hợp các đối tượng hoặc phân chia ngẫu nhiên các đối tượng vào các nhóm khởi đầu.

Phương pháp K-MEAN

Mac Queen đã phát triển phương pháp K-means, trong đó thuật toán phân phối mỗi đối tượng vào cụm có trung tâm gần nhất Quá trình này được thực hiện qua ba bước.

1 Phân chia ngẫu nhiên các đối tượng vào K cụm ban đầu.

Từ danh sách các đối tượng, phân phối từng đối tượng vào cụm có trung tâm gần nhất, thường dựa trên khoảng cách Euclide Sau đó, tính toán lại trung tâm cho cụm nhận đối tượng mới và cụm mất đối tượng.

Lặp lại bước 2 cho đến khi không còn sự phân phối lại, tức là chênh lệch vị trí giữa tâm cũ và mới bằng 0 Đối với dữ liệu phức tạp, thuật toán K-means có thể mất nhiều thời gian hoặc không hội tụ Trong những trường hợp này, thay vì tìm K tâm cố định, ta sẽ dừng lại khi sự thay đổi đạt đến một mức chấp nhận được.

Nhóm 6 Phân tích số liệu

Ta có bảng số liệu sau: Đối tượng Quan sát x 1 x 2

Mục tiêu của phương pháp K-means là phân chia các đối tượng thành K = 2 cụm sao cho mỗi đối tượng gần với tâm của cụm chứa nó nhất Để thực hiện phương pháp này, ta có thể bắt đầu bằng cách chia các đối tượng thành hai cụm tùy ý, chẳng hạn như (AB) và (CD).

Ta tính trung tâm của 2 cụm(x1, x2).

Từ đó ta có kết quả Bước 1 là:

Chúng tôi tính toán khoảng cách Euclide từ từng đối tượng đến trung tâm của các cụm, sau đó phân phối lại mỗi đối tượng cho cụm có tâm gần nhất Nếu một đối tượng được chuyển từ nhóm này sang nhóm khác, trung tâm của các cụm liên quan sẽ cần được tính toán lại trước khi tiếp tục quá trình.

Ta tính bình phương khoảng cách: d 2 (A,(AB)) = (5−2) 2 + (3−2) 2 = 10 d 2 (A,(CD)) = (5 + 1) 2 + (3 + 2) 2 = 61

Cụm (AB) gần hơn cụm (CD), do đó không cần phân phối lại Tính toán khoảng cách cho thấy: \$d^2(B,(AB)) = (−1−2)^2 + (1−2)^2 = 10\$ và \$d^2(B,(CD)) = (−1 + 1)^2 + (1 + 2)^2 = 9\$ Vì vậy, B cần được phân phối vào cụm (CD), dẫn đến việc hình thành cụm (BCD).

Ta tính lại tâm của các cụm:

Mỗi đối tượng được kiểm tra bằng cách tính bình phương khoảng cách, ta thu được kết quả sau:

Ta thấy rằng mỗi đối tượng được phân bố chính xác vào cụm có trung tâm gần nó nhất nên có thể kết thúc.

Vậy 2 cụm phân chia là A và (BCD). Ưu-nhược điểm:

Thuật toán K-Means có ưu điểm là đơn giản, dễ hiểu và dễ cài đặt Tuy nhiên, một số hạn chế của K-Means là:

Giải thuật K-means không đạt hiệu quả cao đối với các tập dữ liệu có số chiều lớn và nhiều phần tử nhiễu, chẳng hạn như các tập dữ liệu biểu hiện gen.

Trong một số tập dữ liệu, mỗi đối tượng không chỉ thuộc về một cụm duy nhất, mà có thể nằm ở ranh giới giữa các cụm khác nhau Để xử lý tình huống này, cần áp dụng các thuật toán BisClustering.

Hiệu quả của thuật toán phân cụm phụ thuộc vào việc lựa chọn số nhóm K Mặc dù thuật toán yêu cầu xác định giá trị K, nhưng trong thực tế, việc biết trước số lượng nhóm có thể gặp khó khăn Hơn nữa, chi phí tính toán khoảng cách tăng cao khi số cụm K và dữ liệu phân cụm lớn.

Một vấn đề cần phải bàn luận nhiều là số cụm không cố định, chúng thể hiện theo các mặt sau:

1 Nếu hai hoặc nhiều hơn các phần tử ban đầu lại nằm giữa các cụm đơn, các cụm kết quả sẽ khác biệt nhau một cách đáng kể.

2 Sự tồn tại của một phần tử ngoại vi có thể dẫn tới có ít nhất một nhóm với rất nhiều đối tượng bị phân tán.

3 Thậm chí nếu tập được biết là có tồn tại K nhóm, sự ép buộc dữ liệu thành K nhóm sẽ dẫn đến các cụm vô nghĩa.

Trong các thuật toán chạy đơn, giá trị K thường được xác định bởi người sử dụng Để tối ưu hóa kết quả, nên thử nghiệm với một số lựa chọn ngẫu nhiên khác nhau cho K Điều này giúp bạn xác định giá trị K phù hợp nhất với dữ liệu của mình.

Nhóm 6 Phân tích số liệu

Phần phân tích bằng Excel

Dữ liệu cho dưới đây là dữ liệu về các công ty làm về năng lượng và các trường dữ liệ.u

Central Louisiana Electric Co 1.43 15.4 113 53.0 3.4 9212 0 1.058 Commonwealth Edison Co 1.02 11.2 168 56.0 3 6423 34.3 700 Consolidated Edison Co (N.Y.) 1.49 8.8 192 51.2 1.0 3300 15.6 2.044 Florida Power and Light Co 1.32 13.5 111 60.0 -2.2 1127 22.5 1.241 Hawaiian Electric Co 1.22 12.2 175 67.6 2.2 7642 0 1.652

Kentucky Utilities Co 1.34 13.0 168 60.4 7.2 8406 0 .862 Madison Gas and Electric Co 1.12 12.4 197 53.0 2.7 6455 39.2 623

New England Electric Co reported a performance score of 1.13 with a customer satisfaction rating of 10.9 and an average bill of $178 In comparison, Northern States Power Co achieved a score of 1.15, a satisfaction rating of 12.7, and an average bill of $199 Oklahoma Gas and Electric Co had a lower score of 1.09, with a satisfaction rating of 12.0 and an average bill of $96 Pacific Gas and Electric Co recorded a score of 0.96, a satisfaction rating of 7.6, and an average bill of $164 Puget Sound Power and Light Co performed well with a score of 1.16, a satisfaction rating of 9.9, and an average bill of $252 Lastly, San Diego Gas and Electric Co had a score of 0.76, a satisfaction rating of 6.4, and an average bill of $136.

Texas Utilities Co 1.16 11.7 104 54.0 -2.1 13507 0 .636 Wisconsin Electric power Co 1.20 11.8 148 59.9 3.5 7287 41.1 702 United Liluminating Co 1.04 8.6 204 61.0 3.5 6650 0 2.116 Virginia Electric and Power Co 1.07 9.3 174 54.3 5.9 10093 26.6 1.306 Các biến

X1 -tỷ số: thu nhập/các khoản nợ

X 3 -chi phí/1 dung lượng KW tại chỗ

X 4 -yếu tố vận chuyển hàng năm

X5 -sự phát triển nhu cầu về tiêu thụ điện hàng tháng từ 1974 -1975

X6 -lượng bán(số KWH)/năm

X7 - tỷ lệ của năm lượng hạt nhân

Dựa trên thuật toán K-mean, hay lập trình phân loại các công ty nói trên thành 3 nhóm dựa theo 2

• Bước 1: Chọn tâm ngẫu nhiên:

Lấy ngẫu nhiên 3 tâm cụmY1(X11,X21),Y2(X12,X22),Y1(X13,X23)

• Bước 2: Tính khoảng cách từ mỗi đối tượng đến trung tâm cụm: Áp dụng công thức tính khoảng cách từY 1 đếnY 2 2.

Dùng hàm SUMXMY2: tính tổng hiệu các bình phương.

• Bước 3: Tìm đối tượng có tâm gần nhất nó:

Hàm MIN: trả về dự liệu thấp nhất trong vùng dữ liệu

• Bước 4: Phân phối lại cụm:

Hàm IF: thực hiện so sánh logic giữa các giá trị mong muốn

• Bước 5: Kiểm tra lại xem cụm mới có giống với cụm ban đầu không.

Hàm IF: giống nhau trả về TRUE, khác nhau trả về FALSE.

• Bước 6: Lặp lại các bước đến khi số cụm không thay đổi

• Bước 7: Kết quả chạy Excel:

Hình 4.1: Kết quả thu được Kmean lần 1

Nhóm 6 Phân tích số liệu

Hình 4.2: Kết quả thu được Kmean lần 2,3 và kết thúc thuật toán sau khi số cụm không thay đổi

Dựa vào kết quả thu được, các cụm có sự nhạy cảm cao với vị trí Tuy nhiên, trong thực tế, vẫn còn nhiều cụm chưa được xác định Do đó, cần áp dụng các thuật toán khác như Elbow để tìm ra các cụm phù hợp cho việc phân tích Thuật toán K-means sẽ dừng lại khi dữ liệu không còn thay đổi sau khi xác định số lượng cụm.

Phân cụm dựa trên mô hình thống kê

Phân cụm dựa trên mô hình thống kê

Những tiến bộ trong phương pháp phân cụm đã được thực hiện nhờ vào việc giới thiệu các mô hình thống kê, cho thấy cách thức tập hợp các phép đo từ nhiều đối tượng Mô hình phổ biến nhất là mô hình mà trong đó cụm có tỷ lệ dự kiến của các đối tượng và các phép đo tương ứng được tạo ra bởi hàm mật độ Nếu có K cụm, vec-tơ quan sát cho một đối tượng đơn lẻ được mô hình hóa dựa trên phân phối trộn.

Phân phối hỗn hợp fM ix được xác định bởi K phân phối f1(x), , fK(x), trong đó mỗi phân phối có xác suất pk với điều kiện pk ≥ 0 và tổng các xác suất này bằng 1, tức là \(\sum_{k=1}^{K} p_k = 1\).

Mô hình hỗn hợp phổ biến nhất là hỗn hợp của các phân phối chuẩn đa biến Trong đó thành phần thứ k, f(x)là hàm mật độ củaN p (à k ,Σ k ).

Mô hình hỗn hợp thông thường cho một lần quan sát: fM ix(x|à1,Σ1, , àk,Σk) K

Các tham chiếu dựa trên khả năng xảy ra vớiN đối tượng và một số cụmK cố định là:

Trong bài viết này, chúng ta xem xét các tỷ lệ \(p_1, p_2, \ldots, p_k\) và vector trung bình \(\mathbf{a}_1, \mathbf{a}_2, \ldots, \mathbf{a}_k\), trong khi ma trận hiệp phương sai \(\Sigma_1, \ldots, \Sigma_k\) vẫn chưa được xác định Các phép đo cho các đối tượng khác nhau được coi là các quan sát độc lập và phân bố giống hệt nhau từ một phân bố hỗn hợp Một phương pháp hiệu quả để lựa chọn mô hình là bắt đầu bằng việc thu thập các dữ liệu cần thiết.

Nhóm 6 phân tích số liệu để ước tính khả năng xảy ra tối ưu cho các tham số pˆ1, , pˆk với k cho một số cụm cố định K Giá trị ước lượng hợp lý cực đại cung cấp lựa chọn cho mô hình.

Để so sánh các mô hình với số lượng thông số khác nhau, cần áp dụng một hình phạt bằng hai lần giá trị lớn nhất của khả năng ghi lại.

Hàm mục tiêu được xác định bởi công thức -2lnL max - Hình phạt (5.5), trong đó hình phạt phụ thuộc vào số lượng tham số ước tính và số lượng quan sát N Do xác suất pk tổng bằng 1, chỉ có K1 xác suất cần được ước lượng, cùng với K×p giá trị trung bình và K×p(p + 1)/2 phương sai và hiệp phương sai Đối với tiêu chí thông tin Akaike (AIC), hình phạt được tính là 2N×(số lượng tham số).

Tiêu chí thông tin Bayes (BIC) tương tự nhưng sử dụng logarit của số lượng tham số trong hàm hình phạt:

Đôi khi, việc xử lý quá nhiều tham số trong mô hình hỗn hợp có thể gặp khó khăn, do đó, các cấu trúc đơn giản cho ma trận hiệp phương sai Σk thường được giả định Tuy nhiên, các cấu trúc phức tạp hơn cũng được cho phép, như được chỉ ra trong bảng dưới đây.

Giả địnhΣk Tổng số tham số BIC Σ k =ηI K(p+ 1) lnL max −2 ln(N)K(p+ 1) Σi =ηlI K(p+ 2)−1 lnLmax−2 ln(N)(K(p+ 2)−1) Σ k =η 1 Diag (λ 1 , λ 2 , , λ p ) K(p+ 2) +p−1 lnL max −2 ln(N)(K(p+ 2) +p−1)

Việc ước lượng mô hình hỗn hợp, ngay cả với các cụm cố định, vẫn gặp nhiều phức tạp Gói phần mềm MCLUST, có sẵn trong thư viện phần mềm R, tích hợp cả phân cụm phân cấp và các thuật toán khác.

Trong quá trình phát triển mô hình phân cụm, tiêu chí BIC và thuật toán EM đóng vai trò quan trọng Ở bước E của thuật toán, một ma trận kích thước (N×K) được tạo ra, trong đó hàng thứ j chứa các ước lượng xác suất có điều kiện cho việc quan sát x thuộc về các cụm 1, 2, , K Khi đạt được hội tụ, quan sát thứ j sẽ được gán cho cụm k với xác suất có điều kiện được tính toán là \$p(k|x_j) = \hat{p}_j f(x_j | k)\$.

Phân tích bằng R

Phân cụm 3 loại hoa IRIS với bảng số liệu có sẵn

Hình 5.1: Dữ liệu về loài hoa

Hình 5.2: Xử lý phân cụm cho data bằng RNhận thấy BIC vớiG= 3là−562,5522nhỏ hơn so với BIC với G= 2là−561.7285

Nhóm 6 Phân tích số liệu

Hình 5.3: Kết quả cho mô hình phù hợp nhất là: Chia data thành 2 cụm

Hình 5.4: Ta xét thêm trường hợp với G = 3 (chia data thành 3 cụm)

Nhóm 6 Phân tích số liệu

Hình 5.5: Các biểu đồ phân tán của K = 3 cụm cho dữ liệu Iris

Hình 5.6: Biểu đồ phân tán của các phép đo lá đài cho mô hình K = 3

Hình 5.7: Biểu đồ phân tán của các phép đo lá đài cho mồ hình tốt nhất ( K = 2 )

Chia tỷ lệ đa chiều

Tổng quan về chia tỉ lệ đa chiều

Tỷ lệ đa chiều là một biểu thị trực quan về khoảng cách hoặc sự khác biệt giữa các tập hợp đối tượng.

“Đối tượng” có thể là màu sắc, khuôn mặt, tọa độ bản đồ, sự thuyết phục chính trị, hoặc bất kỳ loại kích thích nào (Kruskal và Wish, 1978) Các đối tượng tương tự hơn sẽ gần nhau hơn trên biểu đồ, trong khi các đối tượng ít tương tự hơn sẽ xa nhau Ngoài việc giải thích sự khác biệt dưới dạng khoảng cách trên biểu đồ, MDS còn được sử dụng như một kỹ thuật giảm kích thước cho dữ liệu chiều cao (Buja và cộng sự, 2007).

Thuật ngữ "chia tỷ lệ" liên quan đến việc đo lường tâm lý, trong đó các khái niệm trừu tượng được gán các con số theo quy tắc nhất định (Trochim, 2006) Ví dụ, để định lượng thái độ đối với sự nóng lên toàn cầu, bạn có thể gán “1” cho “không tin” và “10” cho “tin chắc”, với các giá trị từ 2 đến 9 cho các thái độ trung gian "Chia tỷ lệ" cũng có thể hiểu là việc thu nhỏ dữ liệu, tức là đơn giản hóa thông tin bằng cách tạo ra dữ liệu có chiều thấp hơn, với các điểm dữ liệu gần nhau trong không gian chiều cao cũng gần nhau trong không gian chiều thấp (Martinez, 2005) Khái niệm "đa chiều" không chỉ giới hạn ở đồ thị hai chiều mà còn mở rộng đến dữ liệu ba chiều, bốn chiều và cao hơn.

MDS được áp dụng rộng rãi trong nhiều lĩnh vực và không chỉ giới hạn ở một ma trận hay tập dữ liệu cụ thể Hầu hết mọi ma trận đều có thể được phân tích bằng kỹ thuật này, miễn là chúng chứa dữ liệu quan hệ như tương quan, khoảng cách, nhiều thang đánh giá hoặc các điểm tương đồng (Young, 2013).

Khi nào sử dụng MDS

Khi được cung cấp danh sách các thành phố và yêu cầu tạo bản đồ với khoảng cách giữa chúng, ta có thể dễ dàng đo đạc Tuy nhiên, nếu chỉ có khoảng cách mà không có vị trí, việc tạo bản đồ vẫn khả thi nhưng đòi hỏi sự suy luận và hình học Kruskal Wish (1978), tác giả của một trong những cuốn sách đầu tiên về tỷ lệ đa chiều, cho rằng bài toán này rất phù hợp cho việc chia tỷ lệ đa chiều Mục tiêu là từ một tập hợp các điểm khác biệt, tạo ra một bản đồ thể hiện cả khoảng cách và vị trí ban đầu của chúng.

Chia tỷ lệ đa chiều sử dụng ma trận vuông đối xứng cho đầu vào Ma trận thể hiện mối quan hệ giữa các đối tượng.

Thuật toán

Với N phần tử, có tổng cộng \$M = \frac{N(N-1)}{2}\$ điểm tương đồng giữa các cặp phần tử khác nhau Những điểm tương đồng này tạo thành dữ liệu cơ bản Trong trường hợp khó định lượng các điểm tương đồng, như sự giống nhau giữa hai màu, thứ tự xếp hạng của các điểm tương đồng vẫn được coi là dữ liệu cơ bản.

Giả sử không có ràng buộc, các điểm tương đồng có thể được sắp xếp theo thứ tự tăng dần như: si 1 k 1 < si 2 k 2 < < si M k M (6.1)

Trong đósi 1 k 1 là điểm tương đồng nhỏ nhất Chỉ số phụi1k1chỉ ra các cặp phần tử ít giống nhau nhất

Các phần tử có xếp hạng 1 trong thứ tự tương đồng, với các chỉ số phụ được giải thích tương tự Cần tìm một cấu hình q-chiều của N phần tử sao cho khoảng cách \(d(q)_{ik}\) giữa các cặp phần tử khớp với thứ tự đã cho Nếu các khoảng cách được sắp xếp theo thứ tự đó, một kết hợp hoàn hảo sẽ xảy ra khi \(d(q)_{i}\).

Thứ tự giảm dần của các khoảng cách trong chiều tương tự với thứ tự tăng dần của các điểm tương đồng ban đầu Miễn là thứ tự trong (6.2) được duy trì, độ lớn của các khoảng cách không quan trọng Đối với một giá trị q nhất định, có thể không tìm được cấu hình của các điểm với khoảng cách theo cặp đơn điệu liên quan đến các điểm tương đồng ban đầu Kruskal [19] đã đề xuất một thước đo.

Nhóm 6 Phân tích số liệu về mức độ mà một biểu diễn hình học thiếu phù hợp Phép đo này,Stress, được định nghĩa là

(q) ik trong công thứcStresslà các số đã biết để thỏa mãn (6.2); chúng liên quan đơn điệu đến những điểm tương đồng Các ⌢ d

Các số tham chiếu (q) ik không phải là khoảng cách theo nghĩa thông thường, mà chỉ được sử dụng để đánh giá tính phi đơn điệu của các (q) ik quan sát được.

Định nghĩa khoảng cách giữa hai điểm \(d(x, y)\) thỏa mãn các điều kiện: \(d(x, y) = d(y, x)\), \(d(x, y) > 0\) nếu \(x \neq y\), và \(d(x, y) = 0\) nếu \(x = y\) Ngoài ra, khoảng cách cũng thỏa mãn bất đẳng thức tam giác: \(d(x, z) \leq d(x, y) + d(y, z)\) Ý tưởng là tìm một biểu diễn của các phần tử dưới dạng các điểm trong không gian \(q\)-chiều sao cho giá trị Stress càng nhỏ càng tốt Kruskal đã đề xuất rằng Stress có thể được hiểu theo cách này.

Mức độ phù hợp đề cập đến mối quan hệ đơn điệu giữa các điểm tương đồng và khoảng cách cuối cùng.

Một thước đo khác biệt, được giới thiệu bởi Takane và cộng sự, đã trở thành tiêu chí ưa thích Đối với một kích thước q nhất định, số đo này, ký hiệu là SStress, thay thế các giá trị \(d_{ik}\) và \(\hat{d}_{ik}\) trong công thức (6.3) bằng các bình phương của chúng.

Giá trị của SStress luôn nằm trong khoảng từ 0 đến 1 Bất kỳ giá trị điểm của đối tượng nào nhỏ hơn 0.1 thường được coi là có biểu hiện tốt.

Khi các phần tử được định vị trong không gian q chiều, vectơ tọa độ q x 1 của chúng có thể được xem như các quan sát đa biến Để dễ dàng hiển thị, việc biểu diễn biểu đồ phân tán trong không gian q chiều là rất thuận tiện.

Trang 49 các trục thành phần chính của nó.

Tác giả đã mô tả số đo Stress như một hàm của q, số chiều cho biểu diễn hình học Mỗi giá trị q tương ứng với cấu hình dẫn đến Stress nhỏ nhất có thể đạt được Khi q tăng, Stress nhỏ nhất trong phạm vi sai số làm tròn sẽ giảm và trở về 0 khi q = N - 1 Bắt đầu từ q = 1, có thể xây dựng đồ thị của các số Stress(q) so với q, và giá trị q mà đồ thị này bắt đầu chững lại có thể được chọn làm giá trị quan trọng.

"tốt nhất" của kích thước.

Toàn bộ thuật toán chia tỷ lệ đa chiều được tóm tắt trong các bước sau:

Bước đầu tiên là với N phần tử, ta sẽ tính được M = N (N - 1) / 2 điểm tương đồng giữa các cặp phần tử khác nhau Các điểm tương đồng này sẽ được sắp xếp theo thứ tự từ lớn nhất đến nhỏ nhất Trong trường hợp không thể tính toán được các điểm tương đồng, cần phải chỉ định thứ tự xếp hạng cho chúng.

Bước 2 Sử dụng cấu hình thử nghiệm trongq-chiều, xác định khoảng cách d (q) ik và số ⌢ d

(q) ik (thỏa mãn (6.2) và giảm thiểu Stress (6.3) hoặc SStress (6.4)) ( ⌢ d

Ik thường được xác định trong các chương trình chia tỷ lệ trên máy tính thông qua các phương pháp hồi quy, nhằm tạo ra các khoảng cách đơn điệu "phù hợp".

Để cải thiện cấu hình, cần di chuyển các điểm xung quanh, với cấu hình cải tiến được xác định thông qua quy trình giảm thiểu hàm tổng quát áp dụng cho Stress Tại thời điểm này, Stress được xem như là hàm của tọa độ \(N\) của \(N\) phần tử Một cấu hình mới sẽ có các giá trị \( (q)_{ik} \) mới và \( \hat{d} \).

(q) ik mới và Stress nhỏ hơn Quá trình được lặp lại cho đến khi đạt được biểu diễn tốt nhất (Stress tối thiểu).

Bước 4 Vẽ đồ thịStress(q)nhỏ nhất so vớiqvà chọn số chiều tốt nhất,q∗, từ việc kiểm tra biểu đồ này.

Tác giả giả định rằng các giá trị tương đồng ban đầu là đối xứng (sik=ski) và không có ràng buộc hay quan sát nào bị thiếu Kruskal đã đề xuất các phương pháp để xử lý sự bất đối xứng, ràng buộc và các quan sát bị thiếu Hiện nay, có các chương trình máy tính chia tỷ lệ đa chiều có khả năng xử lý không chỉ khoảng cách Euclide mà còn bất kỳ khoảng cách nào thuộc loại Minkowski.

Phân tích bằng Excel

Bảng sau cho dữ liệu khoảng cách của 6 thành phố được trích xuất từ sách.

Nhóm 6 Phân tích số liệu

Các bước thực hiện trên excel để đưa ra kết quả biểu đồ tỉ lệ đa chiều:

Bước 1:Tạo ma trận xếp hạng khoảng cách của dữ liệu ban đầu: để tạo ma trận xếp hạng sử dụng hàm RANK

Bước 2:Tạo tọa độ xy bất kỳ

Hình 6.1: Tọa độ XY tạo bất kỳ với các thành phố tương ứng

Bước 3:Sau đó tạo bảng ma trận khoảng cách mới ứng với tọa độ xy đã chọn và xếp hạng khoảng cách lại.

Hình 6.2: Ma trận khoảng cách mới

Hình 6.3: Bảng xếp hạng lại

Bước 4:So sánh tương quan hai bảng xếp hạng khoảng cách: bảng ban đầu và bảng đã gán tọa độ xy bằng hàm CORREL

Thu được kết quả với Correl = 0.678020095.

Bước 5: Sử dụng hàm SOLVER trong Excel để xác định biểu đồ tỉ lệ đa chiều và tập dữ liệu xy phù hợp, nhằm tối đa hóa mối tương quan Kết quả thu được từ việc áp dụng hàm này với bộ dữ liệu đã cho.

Hình 6.4: Kết quả thu được

Kết quả từ việc sử dụng Solver cho thấy độ tương quan chính xác giữa tập dữ liệu XY và từng thành phố trong khoảng từ -6 đến 6, phù hợp với mô hình đã đề ra.

Biểu đồ cho thấy thành phố Boston và Washington có mối liên hệ cao, trong khi Chicago và Atlanta có tương quan tương đối gần nhau Ngược lại, Los Angeles có mối tương quan xa với các thành phố Denver và Chicago, do đó cần áp dụng thêm các thuật toán phân cụm.

Giới thiệu

Phân tích tương ứng (Correspondence Analysis - CA) là một phương pháp trực quan hiệu quả để phân tích dữ liệu từ các bảng 2 chiều Phương pháp này được áp dụng rộng rãi trong nhiều lĩnh vực, bao gồm phân tích kinh doanh, khai phá dữ liệu và điều tra xã hội học.

Kết quả phân tích tạo ra bản đồ các điểm, trong đó mỗi điểm đại diện cho các dòng và cột của bảng Vị trí của các điểm trên bản đồ thể hiện mức độ tương tự giữa các dòng, các cột và sự kết hợp giữa chúng trong bảng.

Khai triển toán học của phân tích tương ứng

Giả sử chúng ta có một bảng số liệu hai chiều, gọi là bảng dự phòng \(X_{I \times J}\) với kích thước \(I \times J\) (với \(I > J\)), trong đó \(I\) đại diện cho số hàng và \(J\) là số cột, như được minh họa trong ví dụ dưới đây.

Bảng 7.1: Bảng tần số các loại gốm phân chia theo khu vực Theo bảng trên ta có thể thấy bảng có I=7 hàng và J=4 cột.

Bước 1:Xây dựng ma trận tỉ lệP =p ij bằng cách chỉ mỗi phần tử của X cho n: p ij =x ij n ;i= 1,2, I;j= 1,2, J (7.1) Trong đó: n là tổng các giá trị tần số trong bảng X n I

Ma trận P được gọi là ma trận tương ứng.

Bước 2:Tính các vector tổng hàng, tổng cộtri,cj và ma trận đường chéoDrvàDc tương ứng ri J

Bước 3:Xây dựng các ma trận căn bậc 2 và nghịch đảo của các ma trận đường chéo trên.

Bước 4:Ta tiến hành khai triển kì dị(Singular Value Decomposition- SVD) của ma trận Z

Nhóm 6 Phân tích số liệu

Ta sẽ thu được Z bằng tích các ma trận

U ={u 1 , u 2 , u I } vớiu 1 , u 2 , u I là các vector kì dị trái đại diện cho tọa độ dòng.

V ={v 1 , v 2 , v J } vớiv 1 , v 2 , v J là các vector kì dị phải đại diện cho tọa độ cột.

P=diag(σ1;σ2; ;σk)vớiσ1;σ2; ;σk các giá trị kì dị.

Trong đó k là hạng của ma trận.

Bước 5:Vẽ biểu đồ và đánh giá.

Bảng dự phòng X thể hiện tần số phân bổ các loại gốm khảo cổ được tìm thấy, được phân chia theo khu vực như trong bảng dưới đây.

Bảng 7.2: Bảng tần số các loại gốm phân chia theo khu vực Bước 1:Xây dựng ma trận tỉ lệP =pijvới nx1

Bước 2:Tính các vector tổng hàng, tổng cột r, c và ma trận đường chéoDrvàDctương ứng ri= (0.113; 0.096; 0.149; 0.039; 0.1690.154; 0.279) cj= (0.362; 0.117; 0.426; 0.095)

Bước 3: Xây dựng các ma trận căn bậc 2 và nghịch đảo của các ma trận đường chéo trên.

Bước 4:Khai triển kì dị (SVD) ma trận Z Với:

Ta sẽ thu được Z bằng tích các ma trận

Nhóm 6 Phân tích số liệu

Bước 5:Vẽ biểu đồ và nhận xét

Như quan sát trên biểu đồ ta dễ dàng thấy được một số điểm đặc biệt như sau:

Loại A và khu vực p1 trên biểu đồ có sự kết hợp mạnh mẽ, cho thấy loại gốm A chủ yếu được tìm thấy tại khu vực này Tương tự, loại C liên kết chặt chẽ với khu vực p6, loại D với khu vực p0, và loại B với khu vực p4.

Khu vực p1 và p2 gần nhau cho thấy sự tương đồng cao về phân bổ các loại gốm khảo cổ, trong khi p4 và p5 cũng thể hiện mối liên hệ tương tự Ngược lại, vị trí p2 và p0 trên biểu đồ cách xa nhau, cho thấy sự tương đồng kém giữa chúng.

Gốm B và gốm C có vị trí gần nhau hơn so với các cặp gốm khác, cho thấy sự tương đồng cao về phân bổ tại các vị trí.

Ngày đăng: 14/06/2023, 13:49

HÌNH ẢNH LIÊN QUAN

Bảng phân công và đánh giá - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Bảng ph ân công và đánh giá (Trang 2)
Bảng 12.1 liệt kê các hệ số tương tự phổ biến được xác định theo tần số trong (2.6) - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Bảng 12.1 liệt kê các hệ số tương tự phổ biến được xác định theo tần số trong (2.6) (Trang 15)
Hình 4.2: Kết quả thu được Kmean lần 2,3 và kết thúc thuật toán sau khi số cụm không thay đổi - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 4.2 Kết quả thu được Kmean lần 2,3 và kết thúc thuật toán sau khi số cụm không thay đổi (Trang 40)
Hình 5.1: Dữ liệu về loài hoa - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 5.1 Dữ liệu về loài hoa (Trang 43)
Hình 5.3: Kết quả cho mô hình phù hợp nhất là: Chia data thành 2 cụm - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 5.3 Kết quả cho mô hình phù hợp nhất là: Chia data thành 2 cụm (Trang 44)
Hình 5.5: Các biểu đồ phân tán của K = 3 cụm cho dữ liệu Iris - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 5.5 Các biểu đồ phân tán của K = 3 cụm cho dữ liệu Iris (Trang 46)
Hình 5.6: Biểu đồ phân tán của các phép đo lá đài cho mô hình K = 3 - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 5.6 Biểu đồ phân tán của các phép đo lá đài cho mô hình K = 3 (Trang 46)
Hình 6.2: Ma trận khoảng cách mới - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 6.2 Ma trận khoảng cách mới (Trang 52)
Hình 6.1: Tọa độ XY tạo bất kỳ với các thành phố tương ứng - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 6.1 Tọa độ XY tạo bất kỳ với các thành phố tương ứng (Trang 52)
Hình 6.4: Kết quả thu được - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 6.4 Kết quả thu được (Trang 53)
Hình 6.3: Bảng xếp hạng lại - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 6.3 Bảng xếp hạng lại (Trang 53)
Bảng 7.1: Bảng tần số các loại gốm phân chia theo khu vực Theo bảng trên ta có thể thấy bảng có I=7 hàng và J=4 cột. - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Bảng 7.1 Bảng tần số các loại gốm phân chia theo khu vực Theo bảng trên ta có thể thấy bảng có I=7 hàng và J=4 cột (Trang 54)
Hình 7.1: Biểu đồ biểu diễn dữ liệu 2 chiều - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 7.1 Biểu đồ biểu diễn dữ liệu 2 chiều (Trang 60)
Hình 7.2: Biểu đồ biểu diễn dữ liệu 3 chiều - BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION
Hình 7.2 Biểu đồ biểu diễn dữ liệu 3 chiều (Trang 61)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w