Một số kỹ thuật phân cụm dữ liệu và ứng dụng

Tất cả các thử nghiệm của luận văn đều do em tự thiết kế và xây dựng, thuật toán phân cụm Hierarchical clustering được viết bằng MATLAB và kết quả thử nghiệm của thuật toán này được so s

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Chuyên ngành: Khoa học máy tính

Thái Nguyên - 2014

Trang 2

LỜI CẢM ƠN

Em xin gửi lời cảm ơn chân thành nhất đến PGS.TS Bùi Thế Hồng,

người đã tận tình hướng dẫn, giúp đỡ em trong suốt thời gian thực hiện luận văn này

Em cảm ơn các thầy trong Viện Công Nghệ Thông Tin Hà Nội cùng các thầy cô trong trường Đại học Công nghệ thông tin và truyền thông – ĐH Thái Nguyên đã giảng dạy em, giúp em có những kiến thức quý báu trong những năm học qua

Mặc dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hướng dẫn song do trình độ còn hạn chế nên luận văn của em khó tránh khỏi những thiếu

sót Em rất mong nhận được sự thông cảm và góp ý của thầy cô và các bạn

Thái Nguyên, tháng 06 năm 2014

Học viên

Nguyễn Thị Huệ

Trang 3

LỜI CAM ĐOAN

Em xin cam đoan toàn bộ nội dung bản luận văn này là do em tự sưu tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài

Tất cả các thử nghiệm của luận văn đều do em tự thiết kế và xây dựng, thuật toán phân cụm Hierarchical clustering được viết bằng MATLAB và kết quả thử nghiệm của thuật toán này được so sánh với kết quả thử nghiệm trên cùng bộ dữ liệu được phân tích bằng thuật toán chuẩn của phần mềm phân

tích thống kê dữ liệu SPSS 20.0 Bảng dữ liệu về Tỉ suất chết của trẻ em dưới

1 tuổi, tỉ suất sinh thô và tổng tỉ suất sinh năm 2007 của các nước trên thế

giới là do em sưu tầm từ những nguồn tin cậy của một số tổ chức của liên hợp

quốc (Worldbank, UNFPA, UNDP) và từ đĩa DVD Microsoft Student with

Encara Prenium 2009 Nếu sai em xin hoàn toàn chịu trách nhiệm

Thái Nguyên, tháng 06 năm 2014

Nguyễn Thị Huệ

Trang 4

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN iii

MỤC LỤC iv

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ vii

DANH MỤC CÁC TỪ VIẾT TẮT viii

MỞ ĐẦU ix

CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH THỐNG KÊ DỮ LIỆU 1

VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU 1

1.1 Tổng quan về phân tích thống kê dữ liệu 1

1.1.1 Giới thiệu về phân tích thống kê dữ liệu 1

1.1.2 Các thống kê mô tả 4

1.1.3 Phân bố lấy mẫu và suy luận quần thể từ các thống kê mẫu 5

1.1.4 Các phương pháp ước lượng và tham số thống kê 7

1.1.5 Kiểm định giả thuyết thống kê 12

1.2 Bài toán phân tích cụm trong phân tích thống kê dữ liệu 16

1.2.1 Định nghĩa về phân cụm dữ liệu 16

1.2.2 Một số cách tiếp cận trong phân cụm dữ liệu thống kê 17

CHƯƠNG 2 20

MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 20

2.1 Thuật toán phân cụm dữ liệu dựa vào phân cụm phân hoạch 20

2.1.1 Thuật toán K – means 20

2.1.2 Thuật toán PAM 24

2.1.3 Thuật toán CLARA 26

2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ 27

Trang 5

2.2.1 Thuật toán DBSCAN 27

2.2.3 Thuật toán DENCLUDE 34

2.3 Thuật toán phân cum dữ liệu dựa vào phân cụm phân cấp 36

2.3.1 Thuật toán BIRCH 36

2.3.2 Thuật toán Hierarchical clustering 39

CHƯƠNG 3 43

ỨNG DỤNG PHÂN TÍCH CỤM TRONG NHÂN KHẨU HỌC 43

3.1 Xác định bài toán 43

3.2 Phân tích và lựa chọn công cụ phân cụm 48

3.2.1 Các chức năng chính của chương trình phân cụm bằng MATLAB 48

3.2.2 Mã nguồn chương trình (Matlab) 51

3.3 Thực hiện phân tích cụm bằng phân tích thống kê dữ liệu 53

3.3.1 Phương pháp phân tích 53

3.3.2 Các bước tiến hành phân cụm các quốc gia theo các chỉ số nhân khẩu học 54 3.4 Phân tích ý nghĩa của các cụm quốc gia theo ba chỉ số phân cụm 63

KẾT LUẬN 69

TÀI LIỆU THAM KHẢO 70

Trang 6

DANH MỤC CÁC BẢNG

Bảng 3.1 Bảng chỉ số nhân khẩu học của quốc gia 48

Bảng 3.2: Các thông kê mô tả của các biến phân cụm 54

Bảng 3.3: Bảng hệ số tương quan giữa các biến 55

Bảng 3.4 Bảng phân cụm sơ bộ theo 3 phương án 62

Bảng 3.5 Bảng các chỉ số thống kê theo phương án 6 cụm 63

Bảng 3.6 bảng các chỉ số thống kê theo phương án 5 cụm 65

Bảng 3.7 Bảng các chỉ số thống kê theo phương án 4 cụm 66

Trang 7

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Mô hình quá trình nghiên cứu thống kê 3

Hình 2.1: Các thiết lập để xác định danh giới các cụm ban đầu 20

Hình 2.2: Tính toán trọng tâm của các cụm mới 21

Hình 2.3: Ví dụ hình dạng phân cụm bằng K-means 23

Hình 2.4: Cây CF sử dụng trong BIRCH 37

Hình 2.5: Khoảng cách liên kết đơn 40

Hình 2.6: Phương pháp khoảng cách liên kết hoàn toàn 40

Hình 2.7: Phương pháp khoảng cách liên kết trung bình 41

Hình: 2.8 Phương pháp phân tích cụm dựa vào phương sai 41

Hình 2.9: Phương pháp phân tích cụm dựa vào khoảng cách trung tâm 42

Hình 2.10: Sơ đồ thuật toán 42

Hình 3.1 Các chỉ số nhân khẩu học của các cụm với phương án k=4 49

Hình 3.2: Các chỉ số nhân khẩu học của các cụm với phương án k=5 50

Hình 3.3: Các chỉ số nhân khẩu học của các cụm với phương án k=6 50

Hình 3.4: Hộp thoại thực hiện Descriptive Statistics 54

Hình 3.5: Hộp thoại thực hiện thủ tục Corelations 55

Hình 3.6: Hộp thoại phân tích cụm 56

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT

STT Tên viết

tắt Tên tiếng Anh Định nghĩa

Tỉ suất chết của trẻ em dưới 1 tuổi (‰)

(‰)

Số con trung bình sinh ra sống của một người phụ nữ trong suốt thời gian sinh sản

Trang 9

MỞ ĐẦU

1 Lý do chọn đề tài

Ngày nay, chúng ta thường phải xử lý những tập dữ liệu lớn bao gồm rất nhiều các quan sát, các đối tượng Để hiểu rõ về cấu trúc của các tập dữ

liệu này, người ta thường tiến hành hai kiểu phân tích Kiểu thứ nhất là phân

lớp các đối tượng dữ liệu theo một thuộc tính phân lớp nào đó Kỹ thuật này

bao gồm hai bước Bước thứ nhất là xây dựng mô hình dựa vào một tập dữ liệu mẫu được phân chia theo một thuộc tính lớp Bước thứ hai là phân lớp các đối tượng dữ liệu theo mô hình đã xây dựng ở bước một Kiểu này được

gọi là học có giám sát tức là phải có mẫu trước Kiểu thứ hai là phân cụm

Phân cụm là kỹ thuật phân chia một tập lớn các đối tượng thành các cụm khác nhau theo một số thuộc tính nào đó sao cho các đối tượng trong cùng một cụm là tương đồng với nhau theo các thuộc tính này và các cụm khác nhau là hoàn toàn khác biệt với nhau cùng trên các thuộc tính đã cho Nói cách khác, mục tiêu của phân cụm là phân chia các quan sát thành các nhóm đồng nhất

và khác biệt

Không giống như phân loại dữ liệu, phân cụm không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân cụm các quốc gia, các vùng lãnh thổ theo một số tiêu chí về nhân khẩu học, về phát triển kinh tế và xã hội, hoặc phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, …Cho đến hiện nay, phân tích cụm đã được sử dụng nhiều trong phân tích thống kê

và đang được áp dụng rộng rãi trong khai phá dữ liệu Những nghiên cứu tiếp theo về kỹ thuật này là rất cần thiết và hứa hẹn nhiều triển vọng

Trang 10

Do đặc thù của kỹ thuật phân cụm và do khả năng ứng dụng rất phong

phú của kỹ thuật này nên em đã chọn nghiên cứu đề tài Một số kỹ thuật phân

cụm dữ liệu và ứng dụng làm luận văn tốt nghiệp cao học

2 Mục tiêu của đề tài

Nghiên cứu các kỹ thuật phân cụm dữ liệu trong phân tích thống kê dữ liệu cũng như trong khai phá dữ liệu và thử nghiệm phân tích cụm trong nhân khẩu học

3 Đối tượng và phạm vi nghiên cứu

- Nghiên cứu một số kỹ thuật phân cụm trong phân tích thống kê dữ

liệu và trong khai phá dữ liệu

- Phân tích thống kê dữ liệu

- Khai phá dữ liệu

- Điều tra nhân khẩu học

4 Phương pháp nghiên cứu

- Tìm hiểu, thu thập các tài liệu có liên quan

- Nghiên cứu các phương pháp phân cụm trong phân tích thống kê dữ

liệu, trong khai phá dữ liệu và cài đặt thuật toán phân cụm Hieararchical

Clustering

5 Ý nghĩa khoa học của đề tài

- Phân tích cụm là một kỹ thuật có phạm vi ứng dụng rất rộng, đặc biệt

là trong lĩnh vực phân tích điều tra xã hội học và khai phá dữ liệu Phân tích

và đánh giá các kỹ thuật phân cụm khác nhau là một vấn đề cần thiết trong

việc chọn lựa một kỹ thuật thích hợp với mỗi kiểu ứng dụng

- Đề tài của luận văn nhằm mục đích nghiên cứu đánh giá so sánh kỹ

thuật phân cụm đã được cài đặt trong bộ chương trình phân tích thống kê SPSS và kỹ thuật phân cụm áp dụng trong khai phá dữ liệu Qua đó có thể sẽ

rút ra được những kết luận về hiệu quả của hai kiểu phân tích cụm này

Trang 11

6 Nội dung chính của luận văn

Chương 1 Tổng quan về phân tích thống kê dữ liệu và bài toán phân cụm dữ liệu

1.1 Tổng quan về phân tích thống kê dữ liệu

1.2 Bài toán phân cụm trong thống kê dữ liệu

Chương 2: Các kỹ thuật phân cụm dữ liệu

2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ

2.3Thuật toán phân cụm dữ liệu dựa vào phân cụm phân cấp

Chương 3 Ứng dụng phân cụm trong nhân khẩu học

3.1 Xác định bài toán phân tích cụm

3.2 Xây dựng chương trình phân cụm dữ liệu với thuật toán

Hierarchical clustering bằng MATLAB

3.3 Phân tích cụm bằng SPSS

7 Các kết quả dự kiến

- Cài đặt thuật toán phân cụm Hierarchical clustering và thử nghiệm

phân cụm các quốc gia trên thế giới thành 6 cụm theo 3 chỉ số nhân khẩu học

gồm tỉ suất chết của trẻ em dưới 1 tuổi, tỉ suất sinh thô và tổng tỉ suất sinh

- Xây dựng một qui trình phân tích cụm bằng bộ chương trình phân tích

thống kê SPSS

- Tiến hành thử nghiệm sử dụng SPSS để phân cụm dữ liệu đã thử

nghiệm bằng thuật toán phân cụm Hieararchical clustering nói trên

- So sánh các kết quả của hai thử nghiệm và rút ra kết luận về hai

phương pháp này

Trang 12

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN TÍCH THỐNG KÊ DỮ LIỆU

VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU 1.1 Tổng quan về phân tích thống kê dữ liệu

1.1.1 Giới thiệu về phân tích thống kê dữ liệu

1.1.1.1 Khái niệm thống kê

Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quá trình phân tích, dự đoán và ra quyết định

Thống kê thường được chia thành 2 lĩnh vực:

- Thống kê mô tả: là các phương pháp có liên quan đến việc thu thập số liệu, tóm tắt, trình bày, tính toán và mô tả các đặc trưng khác nhau để phản ánh một cách tổng quát đối tượng nghiên cứu

- Thống kê suy luận: là bao gồm các phương pháp ước lượng các đặc trưng của tổng thể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trên cơ sở thông tin thu thập từ kết quả quan sát mẫu

Thống kê đã đóng góp vai trò trung tâm ngày càng tăng trong nhân khẩu học

1.1.1.3 Một số khái niệm thường dùng của thống kê

Tổng thể thống kê, đơn vị tổng thể thống kê

Tổng thể thống kê là tập hợp các đơn vị (hay phần tử) thuộc hiện tượng nghiên cứu, cần quan sát, thu thập và phân tích về mặt lượng của chúng theo một hay một số tiêu thức nào đó Các đơn vị (hay phần tử) cấu thành tổng thể thống kê gọi là đơn vị tổng thể

Trang 13

Như vậy thực chất của việc xác định tổng thể thống kê là việc xác định các đơn vị tổng thể Đơn vị tổng thể là xuất phát điểm của quá trình nghiên cứu thống kê vì nó chứa đựng những thông tin ban đầu cho qúa trình nghiên cứu

Tổng thể đồng chất: Là tổng thể bao gồm các đơn vị giống nhau hay một số đặc điểm chủ yếu có liên quan trực tiếp đến mục đích nghiên cứu

Tiêu thức thống kê được phân làm hai loại:

Tiêu thức thuộc tính: là tiêu thức phản ánh tính chất hay loại hình của

đơn vị tổng thể, không có biểu hiện trực tiếp bằng con số

Tiêu thức số lượng: là tiêu thức có biểu hiện trực tiếp bằng con số

Chỉ tiêu thống kê

Chỉ tiêu thống kê là các trị số phản ánh các đặc điểm, tính chất cơ bản của tổng thể thống kê trong điều kiện thời gian và không gian xác định

Chỉ tiêu thống kê được chia làm hai loại:

Chỉ tiêu khối lượng: Các chỉ tiêu biểu hiện quy mô, khối lượng của tổng thể nghiên cứu, số nhân khẩu, số doanh nghiệp, số vốn, vốn lưu động…

Trang 14

Chỉ tiêu chất lượng: là chỉ tiêu biểu hiện tính chất trình độ phổ biến, quan hệ so sánh của hiện tượng nghiên cứu, như giá thành

1.1.1.4 Khái quát quá trình nghiên cứu thống kê

Quá trình nghiên cứu thống kê hay bất kỳ quá trình nghiên cứu nào, cũng đều trải qua các bước, được khái quát bằng mô hình sau:

Hình 1.1: Mô hình quá trình nghiên cứu thống kê

Xác định vấn đề nghiên cứu, mục đích, nội dung,

đối tượng nghiên cứu

Xây dựng hệ thống các khái niệm chỉ tiêu thống

- Phân tích thống kê sơ bộ

- Lựa chọn các phương pháp phân tích thống kê thích hợp

Phân tích và giải thích kết quả

Dự đoán xu hướng phát triển

Báo cáo và truyền đạt kết quả nghiên cứu

Trang 15

1.1.2 Các thống kê mô tả

Nghiên cứu mô tả là loại hình nghiên cứu mà nhà nghiên cứu tiến hành, thực hiện nhằm xác định rõ bản chất các sự vật và hiện tượng trong những điều kiện đặc thù về không gian cũng như thời gian Nghiên cứu mô tả thông thường bao gồm việc thu thập và trình bày số liệu một cách có hệ thống nhằm đưa ra một bức tranh rõ nét, đầy đủ về một tình hình, vấn đề sức khoẻ cụ thể

Mô tả một hiện tượng chính xác mới hình thành được giả thuyết nhân - quả

đúng, mới đề xuất được các biện pháp phòng ngừa có hiệu quả

1.1.2.1 Mục tiêu của các nghiên cứu mô tả

Nghiên cứu mô tả cần phải đáp ứng ít nhất 2 mục tiêu sau đây:

- Mô tả được một hiện tượng và các yếu tố nguy cơ có liên quan đến hiện tượng đó

- Phác thảo được giả thuyết nhân quả giữa các yếu tố nguy cơ và hiện tượng nghiên cứu

1.1.2.2 Những nội dung chính của các nghiên cứu mô tả

Nội dung cơ bản của nghiên cứu mô tả là xác định được thực trạng các yếu tố con người và các yếu tố không gian, thời gian cụ thể ở một thời điểm nhất định

Yếu tố nguy cơ, căn nguyên

Yếu tố nguy cơ ở đây được hiểu một cách rộng rãi đó là tất cả những yếu tố nào thuộc về bản chất như: yếu tố vật lý, hoá học, sinh lý, tâm lý, di

truyền, khí tượng, các yếu tố kinh tế văn hoá xã hội mà sự tác động của

chúng có thể tạo nên cho cơ thể con người những thay đổi có lợi hoặc đặc biệt

là không có lợi về sức khoẻ con người

Hậu quả

Hầu hết các vấn đề sức khoẻ đều có liên quan đến mối quan hệ nhân quả Để tìm hiểu ta phải nghiên cứu thật đầy đủ về nguyên nhân mới mong

Trang 16

xác định được hậu quả có thể của tình trạng phơi nhiễm Trong mối quan hệ nhân quả, thì hậu quả là tất cả mọi bệnh trạng mà ta quan tâm nghiên cứu, bao gồm các bệnh, khuyết tật và những trạng thái không bình thường của sức khoẻ Nếu ta tiến hành nghiên cứu với 2 mục tiêu trên thì mối quan hệ nhân quả mới có thể xác lập được

Xác định quần thể nghiên cứu

Quần thể nghiên cứu được xác định phụ thuộc mục đích và khả năng nghiên cứu Thông thường người ta chỉ tiến hành nghiên cứu trên một mẫu nghiên cứu mà mẫu đó được xác định dựa trên một quần thể nhỏ nhất song vẫn đáp ứng được mục tiêu nghiên cứu Các quần thể được chọn thường là quần thể phơi nhiễm, quần thể có nguy cơ, quần thể có nguy cơ cao

Mô tả yếu tố nguy cơ

Yếu tố có nguy cơ là yếu tố có liên quan hay làm tăng khả năng mắc một bệnh nào đó, có thể là hành vi, lối sống, các yếu tố môi trường, các tác

nhân lý, hoá, sinh học gây bệnh Mô tả rõ ràng các yếu tố nguy cơ của hiện

tượng sức khoẻ, mới có cơ sở để phân tích rõ ràng và đầy đủ các yếu tố liên quan với chúng, không bỏ sót và như vậy mới đạt được mục tiêu của công việc mô tả đặc biệt là mô tả tương quan Nếu thấy mô tả tương quan không chắc chắn thì có thể phải thay đổi bằng các phương pháp khác như mô tả so sánh nhiều nhóm hoặc nghiên cứu bệnh chứng ta sẽ xác định được các yếu

tố nguy cơ

1.1.3 Phân bố lấy mẫu và suy luận quần thể từ các thống kê mẫu

1.1.3.1 Lấy một mẫu ngẫu nhiên

Một trong các cách để thảo mãn yêu cầu lấy một mẫu ngẫu nhiên là chọn mẫu theo một phương pháp sao cho mọi mẫu khác nhau với cùng một cỡ

n đều có xác suất để được chọn là như nhau Thủ tục này được gọi là lấy mẫu

Trang 17

ngẫu nhiên và mẫu đƣợc chọn theo cách này đƣợc gọi là mẫu ngẫu nhiên với

a Có bao nhiêu mẫu gồm ba nhà cung cấp khác nhau có thể đƣợc chọn từ tám công ty?

b Hãy liệt kê các mẫu này

c Đặt ra tiêu chuẩn cần phải thảo mãn để đảm bảo mẫu đƣợc chọn là hoàn toàn ngẫu nhiên

Lời giải

B, C, D, E, F, G, H), từ quần thể này, chúng ta muốn chọn một mẫu với cỡ

n = 3 phần tử Số các mẫu khác nhau với cỡ n = 3 có thể chọn đƣợc từ một quần thể gồm N = 8 phần tử là

56 1

2 4 5 1 2 3

1 2 3 4 5 6 7 8 5 3

*

* (

n N

(

!

n

! N

Trang 18

b Sau đây là danh sách của 56 mẫu:

nhiên Vì có tất cả 56 mẫu với cỡ n = 3, nên mỗi mẫu phải có một xác suất

bằng 1/56 để được chọn bằng thủ tục ngẫu nhiên

1.1.3.2 Phân bố lấy mẫu

Một độ đo mô tả bằng số của một quần thể được gọi là một tham số

Một đại lượng được tính từ các quan sát của một mẫu ngẫu nhiên được

gọi là một thống kê

Một phân bố lấy mẫu (sampling distribution) của một thống kê (dựa trên n quan sát) là phân bố tần xuất tương đối của các giá trị của thống kê này

được sinh ra theo lý thuyết bằng cách rút lặp đi lặp lại nhiều lần các mẫu ngẫu

nhiên cỡ n và tính giá trị của thống kê này đối với từng mẫu

1.1.4 Các phương pháp ước lượng và tham số thống kê

1.1.4.1 Khái niệm

Trong thống kê, một ước lượng là một giá trị được tính toán từ một mẫu thử và người ta hy vọng đó là giá trị tiêu biểu cho giá trị cần xác định trong dân số Khi nghiên cứu điều tra chọn mẫu, qua mẫu đó người ta nghiên cứu để tính quy luật và trạng thái của tổng thể chung chứa nó, tức là dựa vào

Trang 19

trung bình, phương sai, tỷ lệ của mẫu để suy ra trung bình, phương sai, tỷ lệ của tổng thể chung chưa biết

1.1.4.2 Ước lượng một trung bình quần thể

Trường hợp mẫu lớn

Thuật ngữ mẫu lớn dùng để chỉ các mẫu có cỡ đủ lớn để có thế áp

dụng định lý giới hạn trung tâm như sau:

Nếu cỡ mẫu đủ lớn thì trung bình của một mẫu được rút ngẫu nhiên

từ một quần thể có một phân bố lấy mẫu xấp xỉ dạng chuẩn cho dù phân bố tần suất tương đối của quần thể ở dạng nào Khi cỡ mẫu tăng thì phân bố lấy mẫu càng gần với dạng chuẩn hơn

Tính chất của phân bố lấy mẫu : Nếu là trung bình của một mẫu ngẫu nhiên cỡ n được rút ra từ một quần thể có trung bình và độ lệch chuẩn , thì: Phân bố lấy mẫu của có trung bình bằng trung bình của quần thể mà

từ đó mẫu được rút Tức là, nếu chúng ta gọi là trung bình của phân bố lấy mẫu của Thì =

Phân bố lấy mẫu của có độ lệch chuẩn bằng độ lệch chuẩn của quần thể mà từ đố mẫu rút chia cho căn bậc hai của cỡ mẫu Tứclà, nếu chúng ta ký

Cỡ mẫu sẽ xác định hình dáng của phân bố lấy mẫu Nếu cỡ đủ lớn thì phân bố lấy mẫu sẽ có dạng gần chuẩn Một khoảng tin cậy cho một tham

số là một khoảng mà chúng ta mong muốn giá trị đúng của tham số quần thể

sẽ được chứa trong đó Các điểm nút của khoảng này sẽ được tính trên cơ sở các thông tin của mẫu

Chú ý rằng, trong thực tế chúng ta thường không biết giá trị đúng của

và cũng không lặp đi lặp lại nhiều lần việc lấy mẫu mà chúng ta chỉ cần chọn

Trang 20

Hệ số tin cậy là tỷ lệ số lần một khoảng tin cậy chứa giá trị đúng của tham số quần thể khi thủ tục xây dựng khoảng tin cậy được lặp đi lặp lại nhiều lần

Khoảng tin cậy (1- ) 100% với mẫu lớn cho trung bình quần thể là

độ lệch chuẩn của quần thể được rút mẫu, n là cỡ của mẫu và là giá trị của trung bình mẫu giả thiết n 30 Mối quan hệ giữa độ rộng của khoảng tin cậy và hệ số tin cậy

Đối với một cỡ mấu đã cho thì độ rộng của khoảng tin cậy cho một tham số nào đó của quẩn thể sẽ tăng lên khi hệ số tin cậy tăng Cụ thể hơn là, khoảng tin cậy phải trở nên rộng hơn để chúng ta có thể tin tưởng nhiều hơn rằng nó sẽ chứa giá trị đúng của tham số quần thể

Quan hệ giữa độ rộng của khoảng tin cậy và cỡ mẫu

Đối với một hệ số tin cậy cố định thì độ rộng của khoảng tin cậy sẽ giảm đi khi cỡ mẫu tăng lên Tức là, các mẫu lớn hơn cung cấp nhiều thông tin hơn về quần thể so với các quần thể nhỏ hơn

Trường hợp mẫu nhỏ

Với các mẫu nhỏ cần phải lưu ý đến 2 vấn đề sau:

Vì định lý giới hạn trung tâm chỉ có thể áp dụng được cho các mẫu lớn, nên chúng ta không thể giả thiết rằng phân bố lấy mẫu của là xấp xỉ dạng chuẩn Đối với mẫu nhỏ, phân bố lấy mẫu của phụ thuộc vào hình dạng của phân bố tấn suất trương đối của quần thể được rút mẫu

Độ lệch chuẩn của mẫu có thể không xấp xỉ thoả đáng độ lệch chuẩn quần thể khi cơ mẫu bé

Trang 21

lệ nhị thức p dựa trên các thông tin có được từ một mẫu được rút ra từ một

quần thể

Phân bố lấy mẫu của pˆ

Đối với các mẫu đủ lớn thì phân bố lấy mẫu của pˆ có dạng xấp xỉ dạng

Và độ lệch chuẩn là : = trong đó q = 1-p

Một khoảng tin cậy cho p dựa trên mẫu lớn có thể được xây dựng bằng một thủ tục tương tự như thủ tục đã sử dụng để ước lượng một trung bình quần thể

Khoảng tin cậy mẫu lớn (1- ) 100% cho một tỷ lệ quần thể p là

Trong đó là tỷ lệ mẫu của các quan sát với đặc tính cần nghiên cứu và

Chú ý rằng, chúng ta phải thay và vào công thức của để xây dựng khoảng tin cậy Việc xấp xỉ này sẽ hợp lý chừng nào cỡ mẫu n đủ lớn

1.1.4.4 Ước lượng sự khác nhau giữa hai trung bình quần thể

Trong trường hợp ước lượng một trung bình quần thể với mẫu lớn chúng ta đã biết cách ước lượng tham số dựa trên một mẫu lớn được rút từ một quần thể Trong mục này, chugns ta sẽ nghiên cứu một kỹ thuật sử dụng

Trang 22

thông tin trong hai mẫu khác nhau để ước lượng sự khác nhau giữa hai trung

dạng xấp xỉ chuẩn với

Giống như khi ước lượng mẫu lớn cho trung bình của một quần thể, giả thiết

về mẫu lớn cho phép chúng ta có thể áp dụng định lý giới hạn trung tâm để thu được phân bố lấy mẫu của ( ) ; đồng thời nó cũng cho phép sử

đã dựa vào để tính khoảng tin cậy là

Các giả thiết cần phải có đối với ước lượng dựa trên mẫu lớn của ( - )

1 Việc mẫu ngẫu nhiên được chọn một cách độc lập từ hai quần thể đích Tức là việc lựa chọn các phần tử trong một mẫu không làm ảnh hưởng

và cũng không bị ảnh hưởng bởi sự lựa chọn của các phần tử trong mẫu kia

Trang 23

2 Các mẫu và là đủ lớn ( ít nhất là 30)

Khi ước lượng sự khác nhau giữa hai trung bình quần thể dựa trên các mẫu nhỏ được rút ra từ mỗi quần thể chúng ta phải xác định một số giải thiết

về các phân bố tần xuất tương đối của hai quần thể

Các giả thiết cần phải có đối với ước lượng dựa trên mẫu nhỏ của ( - )

- Cả hai quần thể rút mẫu đều phải có các phân bố tần xuất tương đối xấp xỉ dạng chuẩn

- Các mẫu ngẫu nhiên được chọn một cách độc lập từ hai quần thể Khi các giả thiết này được thỏa mãn chúng ta có thể sử dụng thủ tục sau đây được rút từ các quần thể tương ứng

-2) bậc tự do

Vì chúng ta giả thiết rằng hai quần thể có cùng một phương sai

các thông tin của hai mẫu Ước lượng chung này được ký hiệu và được tính bằng công thức đã cho như ở trên

1.1.5 Kiểm định giả thuyết thống kê

1.1.5.1 Hình thành các giả thuyết

Trong thực tế người ta rất muốn biết liệu một đặc tính nào đó của một

quần thể có lớn hơn một giá trị nhất định nào không, hoặc liệu một giá trị của một tham số nào đó mà ta nhận được có bé hơn một giá trị giả định hay không

Trang 24

Khi muốn đặt ra một phép thử cho một lý thuyết mới, chúng ta phải hình thành một giả định hay một tiêu chuẩn mà chúng ta tin rằng nó sẽ đúng Giả thuyết mà chúng ta định đặt ra là một giả thuyết thay thế Đi đôi với giả thuyết thay thế là giả thuyết gốc hay giả thuyết đối lập với giả thuyết thay thế Các giả thuyết gốc và giả thuyết thay thế mô tả hai trạng thái tự nhiên có thể

có nhưng không thể đồng thời xảy ra Khi một người nghiên cứu bắt đầu thu thập thông tin về một hiện tượng mà người đó quan tâm thì họ sẽ cố gắng đưa

ra các luận chứng ủng hộ cho giả thuyết thay thế Phương pháp sau là một phương pháp gián tiếp để nhận được kết luận nghiêng về giả thuyết thay thế, tức là thay vì cố chứng minh giả thuyết gốc là đúng chúng ta sẽ đưa ra các dấu hiệu chứng tỏ giả thuyết gốc là sai

Một giả thuyết thống kê là một kết luận về giá trị của một tham số quần thể

Giả thuyết đối lập với giả thuyết mà ta hy vọng có thể là đúng được gọi

là giả thuyết gốc hay giả thuyết không (ký hiệu )

Giả thuyết mà ta mong muốn có thể chứng minh được là đúng được gọi

là giả thuyết thay thế (ký hiệu Ha)

Các nhà nghiên cứu thường rất hay đưa ra một giả thuyết không với hy vọng họ có thể loại bỏ nó

hướng hoặc nhiều khi là một thay đổi không xác định hướng Một kiểm định trong đó giả thuyết thay thế là có hướng được gọi là một kiểm định giả thuyết một phía Một kiểm định trong đó giả thuyết thay thế không được xác định sẽ

đi theo hướng nào tính từ gọi là một kiểm định giả thuyết hai chiều

1.1.5.2 Các kết luận và kết quả có được từ việc kiểm định giả thuyết

Mục đích của việc kiểm định giả thuyết là đưa ra một quyết định liệu

Trang 25

ra được một kết luận đúng đắn nhưng quyết định này sẽ phải dựa trên các thông tin mẫu vì vậy chúng ta dễ mắc phải một trong hai loại sai lầm sau:

- Một sai lầm loại I xảy ra nếu chúng ta loại bỏ một giả thuyết không khi nó đúng Xác suất mắc một sai lầm loại I thường được ký hiệu là α

- Một sai lầm loại II xảy ra nếu chúng ta không loại bỏ một giả thuyết không khi nó sai Xác suất mắc một sai lầm loại I thường được ký hiệu là α

Giả thuyết không có thể là đúng hoặc sai vì vậy chúng ta sẽ đưa ra một quyết định chấp nhận hoặc bác bỏ nó Như vậy có bốn tình huống xảy ra khi kiểm định một giả thuyết

Thực chất Giả thuyết không đúng ( sai)

Giả thuyết không sai

một sai lầm loại II chỉ có khi không bị bác bỏ Vì vậy chúng ta có thể không mắc sai lầm hoặc có thể mắc hoặc là sai lầm loại I (với xác suất α) hoặc sai lầm loại II (với xác suất β) nhưng không bao giờ mắc cả hai Khi α tăng thì β giảm và ngược lại Cách duy nhất để giảm α và β một cách đồng thời là làm tăng lượng thông tin có thể có trong mẫu, tức là tăng kích thước của mẫu

Xác suất mắc sai lầm loại I có thể kiểm soát được nên nó thường được lấy làm độ đo về mức độ tin cậy của kết luận

Quy trình xác định các giả thuyết và hình thành các kết luận:

1 Xác định giả thuyết mà ta muốn chứng minh là giả thuyết thay thế

Trang 26

3 Nếu thông tin của mẫu nghiêng về giả thuyết thay thế thì ta sẽ loại bỏ

cho một giá trị nhỏ tùy ý

thuyết không bị bác bỏ dựa trên mẫu đang xét Trong trường hợp này, chúng ta có thể phải thu thập thêm thông tin về hiện tượng này để nghiên cứu

1.1.5.3 Các thống kê kiểm định và các miền bác bỏ

Khi tiến hành một suy luận thống kê chúng ta phải thu thập thông tin từ một mẫu được rút ngẫu nhiên trong một quần thể mà ta quan tâm Trong tất cả các ứng dụng, ta đều giả thuyết rằng một quy trình lấy mẫu thích hợp đã được thực hiện Quy trình tiến hành kiểm định một giả thuyết là:

1 Thu nhận một mẫu ngẫu nhiên từ quần thể cần nghiên cứu với một giả thuyết là mẫu này đã được rút ra từ một quy trình lấy mẫu thích hợp

2 Xác định một thống kê kiểm định phù hợp với khuôn khổ của phép kiểm định giả thuyết đã cho

Thống kê kiểm định là một thống kê mẫu được tính từ các thông tin rút

ra từ một mẫu, mà mẫu này lại là cơ sở để tiến hành một kết luận liên quan đến các giả thuyết không và giả thuyết thay thế

Khi kiểm định giả thuyết liên quan đến một tham số quần thể nhất định thì thống kê kiểm định chính là ước lượng điểm tương ứng của tham số này

3 Xác định miền bác bỏ, tức là miền các giá trị có thể có của thống kê kiểm định mà đối với các giá trị này giả thuyết không sẽ bị bác bỏ

4 Sử dụng dữ liệu trong mẫu để tính giá trị của thống kê kiểm định

5 Quan sát xem liệu giá trị vừa tính được của thống kê kiểm định có nằm trong miền bác bỏ không Nếu có thì bác bỏ giả thuyết không, ngược lại, không bác bỏ giả thuyết không

Trang 27

1.2 Bài toán phân tích cụm trong phân tích thống kê dữ liệu

1.2.1 Định nghĩa về phân cụm dữ liệu

Phân cụm dữ liệu (Data Clustering), cũng có thể gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình phân chia một tập các đối tượng, thực thể thành các cụm sao cho các đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng trong các cụm khác nhau thì không tương

tự nhau Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng

ra các gen nhân tạo hoặc các cụm sinh vật (cá thể) ở mức độ loài hoặc giống

hoặc cao hơn có cùng một số thuộc tính

+ Phiên mã gen

Phân cụm được sử dụng để xây dựng các nhóm gen với các mẫu biểu diễn có quan hệ mật thiết với nhau (còn gọi là các gen đồng biểu hiện) Thông thường thì các nhóm như vậy có chứa các protein liên quan đến chức năng, chẳng hạn như các enzym cho một lộ trình cụ thể, hoặc các gen là đồng quy định

- Phân cụm trong kinh doanh và tiếp thị

+ Nghiên cứu thị trường

Phân tích cụm được sử dụng rộng rãi trong nghiên cứu thị trường khi làm việc với dữ liệu đa biến từ các cuộc điều tra và các cuộc thử nghiệm Các nhà nghiên cứu thị trường sử dụng phân tích cụm để phân vùng người tiêu

Trang 28

dùng vào các phân khúc thị trường và hiểu rõ hơn về mối quan hệ giữa các cụm khác nhau của người tiêu dùng / khách hàng tiềm năng, và để sử dụng trong phân khúc thị trường, định vị sản phẩm, phát triển sản phẩm mới và chọn thị trường thử nghiệm

- Phân cụm trong k

+ Phân tích tội phạm

Phân tích cụm có thể được sử dụng để xác định các khu vực có tỷ lệ phạm một tội nào đó cao hơn các khu vực khác Bằng cách xác định những khu vực đặc biệt hoặc các "điểm nóng", nơi một tội ác tương tự đã xảy ra trong một khoảng thời gian nào đó, nhà cầm quyền có thể quản lý và điều hành tốt hơn việc thực thi pháp luật

+ Khai thác dữ liệu giáo dục

Phân tích cụm có thể được sử dụng để xác định nhóm các trường hoặc các học sinh có một số đặc thù tương tự nhau

1.2.2 Một số cách tiếp cận trong phân cụm dữ liệu thống kê

Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các phương pháp tiếp cận chính như sau:

1.2.2.1 Phân cụm phân họach

Phương pháp phân cụm phân hoạch (Partitioning Method) dùng để phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan

hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ

Trang 29

hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược tham lam để tìm kiếm nghiệm Điển hình trong phương pháp tiếp cận theo phân cụm phân họach là thuật toán như K_means

1.2.2.2 Phương pháp phân cụm phân cấp

Phương pháp phân cụm phân cấp (Hierarchical) xây dựng một cây phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập

dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này

đó là: hòa nhập nhóm, thường được gọi là tiếp cận dưới lên (Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận trên xuống (Top-Down)

- Phương pháp “dưới lên” (Bottom up)

Phương pháp này bắt đầu với mỗi đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm

Trang 30

- Phương pháp “trên xuống” (Top Down)

Phương pháp này lại bắt đầu với trạng thái là tất cả các đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm

Trong thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm

dữ liệu cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong khai phá dữ liệu

Trang 31

CHƯƠNG 2 MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 2.1 Thuật toán phân cụm dữ liệu dựa vào phân cụm phân hoạch

2.1.1 Thuật toán K – means

K- means là thuật toán phân cụm mà định nghĩa các cụm bởi trung tâm của các phương tử Phương pháp này dựa trên độ đo khoảng cách của các đối tượng dữ liệu trong cụm Nó được xem như là trung tâm của cụm Như vậy,

nó cần khởi tạo một tập trung tâm các trung tâm cụm ban đầu, và thông qua

đó nó lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tầm gần, và tính toán tại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tượng Quá trình này dừng khi các trung tâm hội tụ

Hình 2.1: Các thiết lập để xác định danh giới các cụm ban đầu

Trong phương pháp K-means, chọn một giá trị k và sau đó chọn ngẫu nhiên k trung tâm của các đối tượng dữ liệu Tính toán khoảng cách giữa đối tượng dữ liệu trung bình mỗi cụm để tìm kiếm phần tử nào là tương tự và thêm vào cụm đó Từ khoảng cách này có thể tính toán trung bình mới của cụm và lặp lại quá trình cho đến khi mỗi các đối tượng dữ liệu là một bộ phận của các cụm k

Mục đích của thuật toán K – means là sinh k cụm dữ liệu { C1, C2,…,

Ck} từ một tập dữ liệu chứa n đối tượng trong không gian d chiều Xi = {xi1,

Trang 32

xi2,…,xid}, I = 1 n, sao cho hàm tiêu chuẩn: E =

đạt giá trị tối thiểu

Trong đó: Mi là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối tượng Trọng tâm của cụm là một vecto, trong đó giá trị của mỗi phần tử của

nó là trung cộng của các thành phần tương ứng của các đối tượng vecto dữ liệu trong cụm đang xét Tham số đầu vào của thuật toán là số cụm k, và tham

số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng cách D giữa các đối tượng dữ liệu thường được sử dụng là khoảng cách Euclide vì đây là mô hình khoảng cách nên dễ lấy đạo hàm và xác định các cực trị tối thiểu Hàm tiêu chuẩn và độ đo khoảng cách có thể được xác định

cụ thể hơn tùy ý vào ứng dụng hoặc quan điểm của người dùng

Hình 2.2: Tính toán trọng tâm của các cụm mới

Các bước cơ bản của thuật toán K – means

Input: số cụm k và các trọng tâm cụm

Begin:

Bước 1: Khởi tạo

dữ liệu) Việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm

Trang 33

Bước 2: Tính toán khoảng cách

Bước 3: Cập nhật lại trọng tâm

trung bình cộng các vecto đối tượng dữ liệu

Trang 34

- MSE : Sai số bình phương trung bình hay là hàm tiêu chuẩn

- (x[i]; m[j] : Khoảng cách Euclide từ đối tượng thứ i tới trọng tâm j;

- OldMSE m’[j], n’[j] : Biến tạm lưu giá trị cho trạng thái trung gian cho các biến tương ứng

Hình 2.3: Ví dụ hình dạng phân cụm bằng K-means

Chất lượng của thuật toán K –mean phụ thuộc nhiều vào các tham số đầu vào như : số cụm k, và k trọng tâm khởi tạo ban đầu Trong trường hợp các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của K – means là rất thấp, nghĩa là các cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế, chưa có một giải

Trang 35

pháp nào để chọn tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất

2.1.2 Thuật toán PAM

Thuật toán PAM là thuật toán mở rộng của thuật toán K-means nhằm

có khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc phần tử ngoại lai, PAM

sử dụng các đối tượng medoid để biểu diễn cho các cụm dữ liệu, một đối tượng medoid là đối tượng đặt tại vị trí trung tâm nhất bên trong mỗi cụm

Vì vậy, đối tượng medoid ít bị ảnh hưởng của các đối tượng ở rất xa trung tâm, trong khi đó các trọng tâm của thuật toán K – means lại rất bị tác động bởi các điểm xa trung tâm này Ban đầu, PAM khởi tạo k đối tượng medoid và phân phối các đối tượng còn lại vào các cụm với đối tượng medoid đại diện tương ứng sao cho chúng tương tự đối với medoid trong cụm nhất

khi đó ta nói Oj thuộc về cụm có đối tượng medoid là Om làm đại diện nếu

Oe, minOe là giá trị nhỏ nhất của độ phi tương tự giữa và tất cả các đối tượng medoid của các cụm dữ liệu chất lượng của mỗi cụm được khám phá được đánh giá thông qua độ phi tương tự trung bình giữa một đối tượng và đối tượng medoid tương ứng với cụm của nó, nghĩa là chất lượng phân cụm được đánh giá thông qua chất lượng của tất cả các đối tượng medoid Độ phi tương tự được xác định bằng độ đo khoảng cách, thuật toán PAM được áp dụng cho dữ liệu không gian Để xác định các medoid, PAM được áp dụng cho dữ liệu không gian

Để xác định các medoid, PAM bắt đầu bằng cách lựa chọn k đối tượng medoid bất kỳ Sau mỗi bước thực hiện , PAM cố gắng hoán chuyển giữa đối tượng Medoid và một đối tượng , không phải là medoid, miễn là sự

Trang 36

hoán chuyển này nhằm cải tiến chất lượng của phân cụm, quá trình này kết thúc khi chất lượng phân cụm không thay đổi Chất lượng phân cụm được đánh giá thông qua hàm tiêu chuẩn, chất lượng phân cụm tốt nhất khi hàm tiêu chuẩn đạt giá trị tối thiểu

PAM tính giá trị cho tất cả các đối tượng để làm căn cứ cho việc hoán chuyển giữa và : là đối tượng medoid hiện thời cần được thay thế :

: Là đối tượng dữ liệu ( Không phải medoid) có thể được di chuyển sang cụm khác;

Các bước thực hiện thuật toán PAM

Input : Tập dữ liệu có n phần tử, số cụm k

Output : k cụm dữ liệu sao cho chất lượng phân hoạch là tốt nhất

BEGIN

1 Chọn k đối tượng medoid bất kỳ;

2 Tính TCmp cho tất cả các cặp đối tượng Om, Op Trong đó, Om là đối

3 Chọn cặp đối tượng Om và Op Tính MinOm, MinOp, TCmp, nếu TCmp

là âm thay thế Om bởi Op và quay lại bước 2 Nếu TCmp dương, chuyển sang bước 4;

4 Với mỗi đối tượng không phải medoid, xác định đối tượng medoid

tương tự với nó nhất đồng thời gán nhãn cụm cho chúng

END

Trang 37

2.1.3 Thuật toán CLARA

Thuật toán CLARA được đưa ra nhằm khắc phục nhược điểm của thuật toán PAM trong trường hợp giá trị k và n là lớn CLARA tiến hành trích mẫu cho tập dữ liệu có n phần tử, nó áp dụng thuật toán PAM cho mẫu này và tìm

ra các đối tượng trung tâm medoid cho mẫu được trích ra từ dữ liệu này Nếu mẫu dữ liệu được trích theo một cách ngẫu nhiên, thì các medoid của nó xấp

xỉ với các medoid của toàn bộ tập dữ liệu ban đầu Để tiến tới một xấp xỉ tốt hơn, CLARA đưa ra nhiều cách lấy mẫu và thực hiện phân cụm cho mỗi trường hợp, sau đó tiến hành chọn kết quả phân cụm tốt nhất khi thực hiện phân cụm trên mẫu này Để đo chính xác, chất lượng của các cụm được đánh giá thông qua độ phi tương tự trung bình của toàn bộ các đối tượng dữ liệu trong tập đối tượng dữ liệu ban đầu Kết quả thực nghiệm chỉ ra rằng, 5 mẫu

dữ liệu có kích thước 40 +2k cho kết quả tốt Các bước thực hiện của thuật toán CLARA:

CLARA (5);

BEGIN

1 For i = 1 to 5 do

2 Lấy một mẫu có 40 + 2k đối tượng dữ liệu ngẫu nhiên từ tập dữ liệu

và áp dụng thuật toán PAM cho mẫu dữ liệu này nhằm để tìm các đối tượng medoid đại diện cho các cụm

3 Đối với mỗi tượng Oj trong tập dữ liệu ban đầu, xác định đối tượng medoid tương tự nhất trong số k đối tượng medoid

4 Tính độ phi tương tự trung bình cho phân hoạch các đối tượng thu được ở bước trước, nếu giá rị này bé hơn giá trị tối thiểu hiện thời thì sử dụng giá trị này thay cho giá trị tối thiểu ở trạng thái trước, như vậy tập k đối tượng medoid xác định ở bước này là tốt nhất cho đến thời điểm này

5 Quay về bước 1

Trang 38

END

Phương pháp medoid không hiệu quả với trường hợp tập dữ liệu lớn, như vậy, phương pháp dựa trên mẫu được gọi là CLARA Ở đây, một phần nhỏ dữ liệu hiện thời được chọn như một đại diện của dữ liệu thay vì sử dụng toàn bộ dữ liệu và sau đó medoid được chọn từ mẫu sử dụng PAM Nếu mẫu được chọn theo cách ngẫu nhiên thì nó có thể cần phải đại diện tập dữ liệu gốc Các đối tượng đại diện (medoids) được chọn là tương tự mà đã được chọn từ tập dữ liệu Nó đưa ra nhiều mẫu của tập dữ liệu, áp dụng PAM trên mỗi mẫu, và trả lại cụm tốt nhất ở đầu ra, như vậy, CLARA có thể xử lý với tập dữ liệu lớn hơn PAM

2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ

2.2.1 Thuật toán DBSCAN

Thuật toán DBSCAN thích nghi với mật độ dầy để phân cụm và khám phá ra các cụm có hình dạng bất kỳ trong không gian CSDL có nhiễu Nó có định nghĩa cụm là tập tối đa các điểm liên thông mật độ

Phân cụm dựa vào mật độ là tập các đối tượng liên thông mật độ mà tối

đa về liên lạc mật độ, mỗi đối tượng không được chứa trong cụm là được xem xét nhiễu Trên thực tế DBSCAN tìm kiếm cho các cụm bằng cách kiểm tra các đối tượng mà có số đối tượng láng giềng nhỏ hơn một ngưỡng tối thiểu, tức là có tối thiểu MinPts đối tượng và mỗi đối tượng trong cụm tồn tại một đối tượng khác trong cụm giống nhau với khoảng cách nhỏ một ngưỡng Eps.Tìm tất cả các đối tượng mà các láng giềng của nó thuộc về lớp các đối tượng đã xác định ở trên, một cụm được xác định bằng một tập tất cả các đối tượng liên thông mật độ các láng giềng của nó DBSCAN lặp lại tìm kiếm ngay khi các đối tượng liên lạc mật độ từ các đối tượng trung tâm, nó có thể bao gồm việc kết hợp một số cụm có mật độ liên lạc Quá trình kết thúc khi không tìm được điểm mới nào có thể thêm vào bất cứ cụm nào

Trang 39

DBSCAN có thể tìm ra các cụm với hình thù bất kỳ, trong khi đo tại cùng một thời điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng dữ liệu nhập vào Khi có một đối tượng được chèn vào chỉ tác động đến một láng giếng xác định Mặt khác , DBSCAN sử dụng tham số Eps và MinPts trong thuật toán

để kiểm soát mật độ của các cụm DBSCAN bắt đầu với một điểm tùy ý và xây dựng mật độ láng giềng có thể được đối với Eps và MinPts, Vì vậy DBSCAN yêu cầu người dùng xác định bán kính Eps của láng giềng và số các láng giềng tối thiểu MinPts, các tham số này khó mà xác định được tối ưu, thông thường nó được xác định bằng phép chọn ngẫu nhiên hoặc theo kinhnghiệm Độ phức tạp của DBSCAN là O( ), nhưng nếu áp dụng chỉ số không gian để giúp xác định các láng giềng của một đối tượng dữ liệu thì độ phức tạp của DBSCAN được cải tiến là O(nlogn) Thuật toán DBSCAN có thể áp dụng cho các tập dữ liệu không gian lớn đa chiều, khoảng cách Eucle

có thể áp dụng cho tập dữ liệu không gián lớn đa chiều, khoảng cách Eclide được sử dụng để đo sự tương tự giữa các đối tượng nhưng không hiệu quả đối với dữ liệu đa chiều

- Định nghĩa 1: Lân cận với ngưỡng Eps của một điểm p ký hiệu

Eps D là tập dữ liệu cho trước

thiểu MinPts điểm Số điểm tối thiểu được chọn là bao nhiêu cũng là bài toán khó vì nếu số điểm tối thiểu lớn thì chỉ những điểm nằm thực sự trong cụm C mới đạt đủ tiêu chuẩn, trong khi đó những điểm nằm ngoài biên của cụm không thể đạt được điều đó Ngược lại, nếu số điểm tối thiểu là nhỏ thì mọi điểm sẽ rơi vào một cụm

Theo định nghĩa trên, chỉ những điểm nằm trong cụm mới thỏa mãn

Trang 40

thỏa mãn điều kiện đó, bởi vì thông thường thì lân cận với ngưỡng Eps của điểm biên thì bé hơn lân cận với ngưỡng của Eps của điểm nhân

Để tránh được điều này, có thể đưa ra một tiêu chuẩn khác để định nghĩa một điểm thuộc vào một cụm như sau : Nếu một điểm p muốn thuộc một cụm C phải tồn tại một điểm thuộc một cụm như sau: Nếu một điểm p

sử dụng để mô tả thuộc tính của các điểm dữ liệu, là mật độ liên lạc trực tiếp, mật độ liên lạc và mật độ liên thông được định nghĩa như sau :

- Định nghĩa 2 : Mật độ liên lạc trực tiếp Một điểm p được gọi là liên

lạc trực tiếp từ điểm q với ngưỡng Eps nếu :

thể thấy liên lạc trực tiếp là một hàm phản xạ và đối xứng với hai điểm nhân

và bất đối xứng nếu một trong hai điểm đó không phải là điểm nhân

- Định nghĩa 3 : Mật độ liên lạc

Một điểm p được gọi là liên lạc từ một điểm q theo tham số Eps và MinPts

lạc được với nhau bởi vì cả hai đều không thỏa mãn điều kiện nhân

- Định nghĩa 4 : Mật độ liên thông

Một điểm p được gọi là liên thông với điểm q theo tham số Eps và MinPts nếu tồn tại một điểm O mà cả hai điểm p, q đều có thể liên lạc được theo tham

số Eps và MinPts Mật độ liên thông có tính chất đối xứng và phản xạ

- Định nghĩa 5 : Cụm

Định dạng
Số trang	81
Dung lượng	1,38 MB