Tất cả các thử nghiệm của luận văn đều do em tự thiết kế và xây dựng, thuật toán phân cụm Hierarchical clustering được viết bằng MATLAB và kết quả thử nghiệm của thuật toán này được so s
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Chuyên ngành: Khoa học máy tính
Thái Nguyên - 2014
Trang 2LỜI CẢM ƠN
Em xin gửi lời cảm ơn chân thành nhất đến PGS.TS Bùi Thế Hồng,
người đã tận tình hướng dẫn, giúp đỡ em trong suốt thời gian thực hiện luận văn này
Em cảm ơn các thầy trong Viện Công Nghệ Thông Tin Hà Nội cùng các thầy cô trong trường Đại học Công nghệ thông tin và truyền thông – ĐH Thái Nguyên đã giảng dạy em, giúp em có những kiến thức quý báu trong những năm học qua
Mặc dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hướng dẫn song do trình độ còn hạn chế nên luận văn của em khó tránh khỏi những thiếu
sót Em rất mong nhận được sự thông cảm và góp ý của thầy cô và các bạn
Thái Nguyên, tháng 06 năm 2014
Học viên
Nguyễn Thị Huệ
Trang 3LỜI CAM ĐOAN
Em xin cam đoan toàn bộ nội dung bản luận văn này là do em tự sưu tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài
Tất cả các thử nghiệm của luận văn đều do em tự thiết kế và xây dựng, thuật toán phân cụm Hierarchical clustering được viết bằng MATLAB và kết quả thử nghiệm của thuật toán này được so sánh với kết quả thử nghiệm trên cùng bộ dữ liệu được phân tích bằng thuật toán chuẩn của phần mềm phân
tích thống kê dữ liệu SPSS 20.0 Bảng dữ liệu về Tỉ suất chết của trẻ em dưới
1 tuổi, tỉ suất sinh thô và tổng tỉ suất sinh năm 2007 của các nước trên thế
giới là do em sưu tầm từ những nguồn tin cậy của một số tổ chức của liên hợp
quốc (Worldbank, UNFPA, UNDP) và từ đĩa DVD Microsoft Student with
Encara Prenium 2009 Nếu sai em xin hoàn toàn chịu trách nhiệm
Thái Nguyên, tháng 06 năm 2014
Nguyễn Thị Huệ
Trang 4MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN iii
MỤC LỤC iv
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH VẼ vii
DANH MỤC CÁC TỪ VIẾT TẮT viii
MỞ ĐẦU ix
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH THỐNG KÊ DỮ LIỆU 1
VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU 1
1.1 Tổng quan về phân tích thống kê dữ liệu 1
1.1.1 Giới thiệu về phân tích thống kê dữ liệu 1
1.1.2 Các thống kê mô tả 4
1.1.3 Phân bố lấy mẫu và suy luận quần thể từ các thống kê mẫu 5
1.1.4 Các phương pháp ước lượng và tham số thống kê 7
1.1.5 Kiểm định giả thuyết thống kê 12
1.2 Bài toán phân tích cụm trong phân tích thống kê dữ liệu 16
1.2.1 Định nghĩa về phân cụm dữ liệu 16
1.2.2 Một số cách tiếp cận trong phân cụm dữ liệu thống kê 17
CHƯƠNG 2 20
MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 20
2.1 Thuật toán phân cụm dữ liệu dựa vào phân cụm phân hoạch 20
2.1.1 Thuật toán K – means 20
2.1.2 Thuật toán PAM 24
2.1.3 Thuật toán CLARA 26
2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ 27
Trang 52.2.1 Thuật toán DBSCAN 27
2.2.3 Thuật toán DENCLUDE 34
2.3 Thuật toán phân cum dữ liệu dựa vào phân cụm phân cấp 36
2.3.1 Thuật toán BIRCH 36
2.3.2 Thuật toán Hierarchical clustering 39
CHƯƠNG 3 43
ỨNG DỤNG PHÂN TÍCH CỤM TRONG NHÂN KHẨU HỌC 43
3.1 Xác định bài toán 43
3.2 Phân tích và lựa chọn công cụ phân cụm 48
3.2.1 Các chức năng chính của chương trình phân cụm bằng MATLAB 48
3.2.2 Mã nguồn chương trình (Matlab) 51
3.3 Thực hiện phân tích cụm bằng phân tích thống kê dữ liệu 53
3.3.1 Phương pháp phân tích 53
3.3.2 Các bước tiến hành phân cụm các quốc gia theo các chỉ số nhân khẩu học 54 3.4 Phân tích ý nghĩa của các cụm quốc gia theo ba chỉ số phân cụm 63
KẾT LUẬN 69
TÀI LIỆU THAM KHẢO 70
Trang 6DANH MỤC CÁC BẢNG
Bảng 3.1 Bảng chỉ số nhân khẩu học của quốc gia 48
Bảng 3.2: Các thông kê mô tả của các biến phân cụm 54
Bảng 3.3: Bảng hệ số tương quan giữa các biến 55
Bảng 3.4 Bảng phân cụm sơ bộ theo 3 phương án 62
Bảng 3.5 Bảng các chỉ số thống kê theo phương án 6 cụm 63
Bảng 3.6 bảng các chỉ số thống kê theo phương án 5 cụm 65
Bảng 3.7 Bảng các chỉ số thống kê theo phương án 4 cụm 66
Trang 7
DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Mô hình quá trình nghiên cứu thống kê 3
Hình 2.1: Các thiết lập để xác định danh giới các cụm ban đầu 20
Hình 2.2: Tính toán trọng tâm của các cụm mới 21
Hình 2.3: Ví dụ hình dạng phân cụm bằng K-means 23
Hình 2.4: Cây CF sử dụng trong BIRCH 37
Hình 2.5: Khoảng cách liên kết đơn 40
Hình 2.6: Phương pháp khoảng cách liên kết hoàn toàn 40
Hình 2.7: Phương pháp khoảng cách liên kết trung bình 41
Hình: 2.8 Phương pháp phân tích cụm dựa vào phương sai 41
Hình 2.9: Phương pháp phân tích cụm dựa vào khoảng cách trung tâm 42
Hình 2.10: Sơ đồ thuật toán 42
Hình 3.1 Các chỉ số nhân khẩu học của các cụm với phương án k=4 49
Hình 3.2: Các chỉ số nhân khẩu học của các cụm với phương án k=5 50
Hình 3.3: Các chỉ số nhân khẩu học của các cụm với phương án k=6 50
Hình 3.4: Hộp thoại thực hiện Descriptive Statistics 54
Hình 3.5: Hộp thoại thực hiện thủ tục Corelations 55
Hình 3.6: Hộp thoại phân tích cụm 56
Trang 8DANH MỤC CÁC TỪ VIẾT TẮT
STT Tên viết
tắt Tên tiếng Anh Định nghĩa
Tỉ suất chết của trẻ em dưới 1 tuổi (‰)
(‰)
Số con trung bình sinh ra sống của một người phụ nữ trong suốt thời gian sinh sản
Trang 9MỞ ĐẦU
1 Lý do chọn đề tài
Ngày nay, chúng ta thường phải xử lý những tập dữ liệu lớn bao gồm rất nhiều các quan sát, các đối tượng Để hiểu rõ về cấu trúc của các tập dữ
liệu này, người ta thường tiến hành hai kiểu phân tích Kiểu thứ nhất là phân
lớp các đối tượng dữ liệu theo một thuộc tính phân lớp nào đó Kỹ thuật này
bao gồm hai bước Bước thứ nhất là xây dựng mô hình dựa vào một tập dữ liệu mẫu được phân chia theo một thuộc tính lớp Bước thứ hai là phân lớp các đối tượng dữ liệu theo mô hình đã xây dựng ở bước một Kiểu này được
gọi là học có giám sát tức là phải có mẫu trước Kiểu thứ hai là phân cụm
Phân cụm là kỹ thuật phân chia một tập lớn các đối tượng thành các cụm khác nhau theo một số thuộc tính nào đó sao cho các đối tượng trong cùng một cụm là tương đồng với nhau theo các thuộc tính này và các cụm khác nhau là hoàn toàn khác biệt với nhau cùng trên các thuộc tính đã cho Nói cách khác, mục tiêu của phân cụm là phân chia các quan sát thành các nhóm đồng nhất
và khác biệt
Không giống như phân loại dữ liệu, phân cụm không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân cụm các quốc gia, các vùng lãnh thổ theo một số tiêu chí về nhân khẩu học, về phát triển kinh tế và xã hội, hoặc phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, …Cho đến hiện nay, phân tích cụm đã được sử dụng nhiều trong phân tích thống kê
và đang được áp dụng rộng rãi trong khai phá dữ liệu Những nghiên cứu tiếp theo về kỹ thuật này là rất cần thiết và hứa hẹn nhiều triển vọng
Trang 10Do đặc thù của kỹ thuật phân cụm và do khả năng ứng dụng rất phong
phú của kỹ thuật này nên em đã chọn nghiên cứu đề tài Một số kỹ thuật phân
cụm dữ liệu và ứng dụng làm luận văn tốt nghiệp cao học
2 Mục tiêu của đề tài
Nghiên cứu các kỹ thuật phân cụm dữ liệu trong phân tích thống kê dữ liệu cũng như trong khai phá dữ liệu và thử nghiệm phân tích cụm trong nhân khẩu học
3 Đối tượng và phạm vi nghiên cứu
- Nghiên cứu một số kỹ thuật phân cụm trong phân tích thống kê dữ
liệu và trong khai phá dữ liệu
- Phân tích thống kê dữ liệu
- Khai phá dữ liệu
- Điều tra nhân khẩu học
4 Phương pháp nghiên cứu
- Tìm hiểu, thu thập các tài liệu có liên quan
- Nghiên cứu các phương pháp phân cụm trong phân tích thống kê dữ
liệu, trong khai phá dữ liệu và cài đặt thuật toán phân cụm Hieararchical
Clustering
5 Ý nghĩa khoa học của đề tài
- Phân tích cụm là một kỹ thuật có phạm vi ứng dụng rất rộng, đặc biệt
là trong lĩnh vực phân tích điều tra xã hội học và khai phá dữ liệu Phân tích
và đánh giá các kỹ thuật phân cụm khác nhau là một vấn đề cần thiết trong
việc chọn lựa một kỹ thuật thích hợp với mỗi kiểu ứng dụng
- Đề tài của luận văn nhằm mục đích nghiên cứu đánh giá so sánh kỹ
thuật phân cụm đã được cài đặt trong bộ chương trình phân tích thống kê SPSS và kỹ thuật phân cụm áp dụng trong khai phá dữ liệu Qua đó có thể sẽ
rút ra được những kết luận về hiệu quả của hai kiểu phân tích cụm này
Trang 116 Nội dung chính của luận văn
Chương 1 Tổng quan về phân tích thống kê dữ liệu và bài toán phân cụm dữ liệu
1.1 Tổng quan về phân tích thống kê dữ liệu
1.2 Bài toán phân cụm trong thống kê dữ liệu
Chương 2: Các kỹ thuật phân cụm dữ liệu
2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ
2.3Thuật toán phân cụm dữ liệu dựa vào phân cụm phân cấp
Chương 3 Ứng dụng phân cụm trong nhân khẩu học
3.1 Xác định bài toán phân tích cụm
3.2 Xây dựng chương trình phân cụm dữ liệu với thuật toán
Hierarchical clustering bằng MATLAB
3.3 Phân tích cụm bằng SPSS
7 Các kết quả dự kiến
- Cài đặt thuật toán phân cụm Hierarchical clustering và thử nghiệm
phân cụm các quốc gia trên thế giới thành 6 cụm theo 3 chỉ số nhân khẩu học
gồm tỉ suất chết của trẻ em dưới 1 tuổi, tỉ suất sinh thô và tổng tỉ suất sinh
- Xây dựng một qui trình phân tích cụm bằng bộ chương trình phân tích
thống kê SPSS
- Tiến hành thử nghiệm sử dụng SPSS để phân cụm dữ liệu đã thử
nghiệm bằng thuật toán phân cụm Hieararchical clustering nói trên
- So sánh các kết quả của hai thử nghiệm và rút ra kết luận về hai
phương pháp này
Trang 12CHƯƠNG 1 TỔNG QUAN VỀ PHÂN TÍCH THỐNG KÊ DỮ LIỆU
VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU 1.1 Tổng quan về phân tích thống kê dữ liệu
1.1.1 Giới thiệu về phân tích thống kê dữ liệu
1.1.1.1 Khái niệm thống kê
Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quá trình phân tích, dự đoán và ra quyết định
Thống kê thường được chia thành 2 lĩnh vực:
- Thống kê mô tả: là các phương pháp có liên quan đến việc thu thập số liệu, tóm tắt, trình bày, tính toán và mô tả các đặc trưng khác nhau để phản ánh một cách tổng quát đối tượng nghiên cứu
- Thống kê suy luận: là bao gồm các phương pháp ước lượng các đặc trưng của tổng thể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trên cơ sở thông tin thu thập từ kết quả quan sát mẫu
Thống kê đã đóng góp vai trò trung tâm ngày càng tăng trong nhân khẩu học
1.1.1.3 Một số khái niệm thường dùng của thống kê
Tổng thể thống kê, đơn vị tổng thể thống kê
Tổng thể thống kê là tập hợp các đơn vị (hay phần tử) thuộc hiện tượng nghiên cứu, cần quan sát, thu thập và phân tích về mặt lượng của chúng theo một hay một số tiêu thức nào đó Các đơn vị (hay phần tử) cấu thành tổng thể thống kê gọi là đơn vị tổng thể
Trang 13Như vậy thực chất của việc xác định tổng thể thống kê là việc xác định các đơn vị tổng thể Đơn vị tổng thể là xuất phát điểm của quá trình nghiên cứu thống kê vì nó chứa đựng những thông tin ban đầu cho qúa trình nghiên cứu
Tổng thể đồng chất: Là tổng thể bao gồm các đơn vị giống nhau hay một số đặc điểm chủ yếu có liên quan trực tiếp đến mục đích nghiên cứu
Tiêu thức thống kê được phân làm hai loại:
Tiêu thức thuộc tính: là tiêu thức phản ánh tính chất hay loại hình của
đơn vị tổng thể, không có biểu hiện trực tiếp bằng con số
Tiêu thức số lượng: là tiêu thức có biểu hiện trực tiếp bằng con số
Chỉ tiêu thống kê
Chỉ tiêu thống kê là các trị số phản ánh các đặc điểm, tính chất cơ bản của tổng thể thống kê trong điều kiện thời gian và không gian xác định
Chỉ tiêu thống kê được chia làm hai loại:
Chỉ tiêu khối lượng: Các chỉ tiêu biểu hiện quy mô, khối lượng của tổng thể nghiên cứu, số nhân khẩu, số doanh nghiệp, số vốn, vốn lưu động…
Trang 14Chỉ tiêu chất lượng: là chỉ tiêu biểu hiện tính chất trình độ phổ biến, quan hệ so sánh của hiện tượng nghiên cứu, như giá thành
1.1.1.4 Khái quát quá trình nghiên cứu thống kê
Quá trình nghiên cứu thống kê hay bất kỳ quá trình nghiên cứu nào, cũng đều trải qua các bước, được khái quát bằng mô hình sau:
Hình 1.1: Mô hình quá trình nghiên cứu thống kê
Xác định vấn đề nghiên cứu, mục đích, nội dung,
đối tượng nghiên cứu
Xây dựng hệ thống các khái niệm chỉ tiêu thống
- Phân tích thống kê sơ bộ
- Lựa chọn các phương pháp phân tích thống kê thích hợp
Phân tích và giải thích kết quả
Dự đoán xu hướng phát triển
Báo cáo và truyền đạt kết quả nghiên cứu
Trang 151.1.2 Các thống kê mô tả
Nghiên cứu mô tả là loại hình nghiên cứu mà nhà nghiên cứu tiến hành, thực hiện nhằm xác định rõ bản chất các sự vật và hiện tượng trong những điều kiện đặc thù về không gian cũng như thời gian Nghiên cứu mô tả thông thường bao gồm việc thu thập và trình bày số liệu một cách có hệ thống nhằm đưa ra một bức tranh rõ nét, đầy đủ về một tình hình, vấn đề sức khoẻ cụ thể
Mô tả một hiện tượng chính xác mới hình thành được giả thuyết nhân - quả
đúng, mới đề xuất được các biện pháp phòng ngừa có hiệu quả
1.1.2.1 Mục tiêu của các nghiên cứu mô tả
Nghiên cứu mô tả cần phải đáp ứng ít nhất 2 mục tiêu sau đây:
- Mô tả được một hiện tượng và các yếu tố nguy cơ có liên quan đến hiện tượng đó
- Phác thảo được giả thuyết nhân quả giữa các yếu tố nguy cơ và hiện tượng nghiên cứu
1.1.2.2 Những nội dung chính của các nghiên cứu mô tả
Nội dung cơ bản của nghiên cứu mô tả là xác định được thực trạng các yếu tố con người và các yếu tố không gian, thời gian cụ thể ở một thời điểm nhất định
Yếu tố nguy cơ, căn nguyên
Yếu tố nguy cơ ở đây được hiểu một cách rộng rãi đó là tất cả những yếu tố nào thuộc về bản chất như: yếu tố vật lý, hoá học, sinh lý, tâm lý, di
truyền, khí tượng, các yếu tố kinh tế văn hoá xã hội mà sự tác động của
chúng có thể tạo nên cho cơ thể con người những thay đổi có lợi hoặc đặc biệt
là không có lợi về sức khoẻ con người
Hậu quả
Hầu hết các vấn đề sức khoẻ đều có liên quan đến mối quan hệ nhân quả Để tìm hiểu ta phải nghiên cứu thật đầy đủ về nguyên nhân mới mong
Trang 16xác định được hậu quả có thể của tình trạng phơi nhiễm Trong mối quan hệ nhân quả, thì hậu quả là tất cả mọi bệnh trạng mà ta quan tâm nghiên cứu, bao gồm các bệnh, khuyết tật và những trạng thái không bình thường của sức khoẻ Nếu ta tiến hành nghiên cứu với 2 mục tiêu trên thì mối quan hệ nhân quả mới có thể xác lập được
Xác định quần thể nghiên cứu
Quần thể nghiên cứu được xác định phụ thuộc mục đích và khả năng nghiên cứu Thông thường người ta chỉ tiến hành nghiên cứu trên một mẫu nghiên cứu mà mẫu đó được xác định dựa trên một quần thể nhỏ nhất song vẫn đáp ứng được mục tiêu nghiên cứu Các quần thể được chọn thường là quần thể phơi nhiễm, quần thể có nguy cơ, quần thể có nguy cơ cao
Mô tả yếu tố nguy cơ
Yếu tố có nguy cơ là yếu tố có liên quan hay làm tăng khả năng mắc một bệnh nào đó, có thể là hành vi, lối sống, các yếu tố môi trường, các tác
nhân lý, hoá, sinh học gây bệnh Mô tả rõ ràng các yếu tố nguy cơ của hiện
tượng sức khoẻ, mới có cơ sở để phân tích rõ ràng và đầy đủ các yếu tố liên quan với chúng, không bỏ sót và như vậy mới đạt được mục tiêu của công việc mô tả đặc biệt là mô tả tương quan Nếu thấy mô tả tương quan không chắc chắn thì có thể phải thay đổi bằng các phương pháp khác như mô tả so sánh nhiều nhóm hoặc nghiên cứu bệnh chứng ta sẽ xác định được các yếu
tố nguy cơ
1.1.3 Phân bố lấy mẫu và suy luận quần thể từ các thống kê mẫu
1.1.3.1 Lấy một mẫu ngẫu nhiên
Một trong các cách để thảo mãn yêu cầu lấy một mẫu ngẫu nhiên là chọn mẫu theo một phương pháp sao cho mọi mẫu khác nhau với cùng một cỡ
n đều có xác suất để được chọn là như nhau Thủ tục này được gọi là lấy mẫu
Trang 17ngẫu nhiên và mẫu đƣợc chọn theo cách này đƣợc gọi là mẫu ngẫu nhiên với
a Có bao nhiêu mẫu gồm ba nhà cung cấp khác nhau có thể đƣợc chọn từ tám công ty?
b Hãy liệt kê các mẫu này
c Đặt ra tiêu chuẩn cần phải thảo mãn để đảm bảo mẫu đƣợc chọn là hoàn toàn ngẫu nhiên
Lời giải
B, C, D, E, F, G, H), từ quần thể này, chúng ta muốn chọn một mẫu với cỡ
n = 3 phần tử Số các mẫu khác nhau với cỡ n = 3 có thể chọn đƣợc từ một quần thể gồm N = 8 phần tử là
56 1
2 4 5 1 2 3
1 2 3 4 5 6 7 8 5 3
*
* (
n N
(
!
n
! N
Trang 18b Sau đây là danh sách của 56 mẫu:
nhiên Vì có tất cả 56 mẫu với cỡ n = 3, nên mỗi mẫu phải có một xác suất
bằng 1/56 để được chọn bằng thủ tục ngẫu nhiên
1.1.3.2 Phân bố lấy mẫu
Một độ đo mô tả bằng số của một quần thể được gọi là một tham số
Một đại lượng được tính từ các quan sát của một mẫu ngẫu nhiên được
gọi là một thống kê
Một phân bố lấy mẫu (sampling distribution) của một thống kê (dựa trên n quan sát) là phân bố tần xuất tương đối của các giá trị của thống kê này
được sinh ra theo lý thuyết bằng cách rút lặp đi lặp lại nhiều lần các mẫu ngẫu
nhiên cỡ n và tính giá trị của thống kê này đối với từng mẫu
1.1.4 Các phương pháp ước lượng và tham số thống kê
1.1.4.1 Khái niệm
Trong thống kê, một ước lượng là một giá trị được tính toán từ một mẫu thử và người ta hy vọng đó là giá trị tiêu biểu cho giá trị cần xác định trong dân số Khi nghiên cứu điều tra chọn mẫu, qua mẫu đó người ta nghiên cứu để tính quy luật và trạng thái của tổng thể chung chứa nó, tức là dựa vào
Trang 19trung bình, phương sai, tỷ lệ của mẫu để suy ra trung bình, phương sai, tỷ lệ của tổng thể chung chưa biết
1.1.4.2 Ước lượng một trung bình quần thể
Trường hợp mẫu lớn
Thuật ngữ mẫu lớn dùng để chỉ các mẫu có cỡ đủ lớn để có thế áp
dụng định lý giới hạn trung tâm như sau:
Nếu cỡ mẫu đủ lớn thì trung bình của một mẫu được rút ngẫu nhiên
từ một quần thể có một phân bố lấy mẫu xấp xỉ dạng chuẩn cho dù phân bố tần suất tương đối của quần thể ở dạng nào Khi cỡ mẫu tăng thì phân bố lấy mẫu càng gần với dạng chuẩn hơn
Tính chất của phân bố lấy mẫu : Nếu là trung bình của một mẫu ngẫu nhiên cỡ n được rút ra từ một quần thể có trung bình và độ lệch chuẩn , thì: Phân bố lấy mẫu của có trung bình bằng trung bình của quần thể mà
từ đó mẫu được rút Tức là, nếu chúng ta gọi là trung bình của phân bố lấy mẫu của Thì =
Phân bố lấy mẫu của có độ lệch chuẩn bằng độ lệch chuẩn của quần thể mà từ đố mẫu rút chia cho căn bậc hai của cỡ mẫu Tứclà, nếu chúng ta ký
Cỡ mẫu sẽ xác định hình dáng của phân bố lấy mẫu Nếu cỡ đủ lớn thì phân bố lấy mẫu sẽ có dạng gần chuẩn Một khoảng tin cậy cho một tham
số là một khoảng mà chúng ta mong muốn giá trị đúng của tham số quần thể
sẽ được chứa trong đó Các điểm nút của khoảng này sẽ được tính trên cơ sở các thông tin của mẫu
Chú ý rằng, trong thực tế chúng ta thường không biết giá trị đúng của
và cũng không lặp đi lặp lại nhiều lần việc lấy mẫu mà chúng ta chỉ cần chọn
Trang 20Hệ số tin cậy là tỷ lệ số lần một khoảng tin cậy chứa giá trị đúng của tham số quần thể khi thủ tục xây dựng khoảng tin cậy được lặp đi lặp lại nhiều lần
Khoảng tin cậy (1- ) 100% với mẫu lớn cho trung bình quần thể là
độ lệch chuẩn của quần thể được rút mẫu, n là cỡ của mẫu và là giá trị của trung bình mẫu giả thiết n 30 Mối quan hệ giữa độ rộng của khoảng tin cậy và hệ số tin cậy
Đối với một cỡ mấu đã cho thì độ rộng của khoảng tin cậy cho một tham số nào đó của quẩn thể sẽ tăng lên khi hệ số tin cậy tăng Cụ thể hơn là, khoảng tin cậy phải trở nên rộng hơn để chúng ta có thể tin tưởng nhiều hơn rằng nó sẽ chứa giá trị đúng của tham số quần thể
Quan hệ giữa độ rộng của khoảng tin cậy và cỡ mẫu
Đối với một hệ số tin cậy cố định thì độ rộng của khoảng tin cậy sẽ giảm đi khi cỡ mẫu tăng lên Tức là, các mẫu lớn hơn cung cấp nhiều thông tin hơn về quần thể so với các quần thể nhỏ hơn
Trường hợp mẫu nhỏ
Với các mẫu nhỏ cần phải lưu ý đến 2 vấn đề sau:
Vì định lý giới hạn trung tâm chỉ có thể áp dụng được cho các mẫu lớn, nên chúng ta không thể giả thiết rằng phân bố lấy mẫu của là xấp xỉ dạng chuẩn Đối với mẫu nhỏ, phân bố lấy mẫu của phụ thuộc vào hình dạng của phân bố tấn suất trương đối của quần thể được rút mẫu
Độ lệch chuẩn của mẫu có thể không xấp xỉ thoả đáng độ lệch chuẩn quần thể khi cơ mẫu bé
Trang 21lệ nhị thức p dựa trên các thông tin có được từ một mẫu được rút ra từ một
quần thể
Phân bố lấy mẫu của pˆ
Đối với các mẫu đủ lớn thì phân bố lấy mẫu của pˆ có dạng xấp xỉ dạng
Và độ lệch chuẩn là : = trong đó q = 1-p
Một khoảng tin cậy cho p dựa trên mẫu lớn có thể được xây dựng bằng một thủ tục tương tự như thủ tục đã sử dụng để ước lượng một trung bình quần thể
Khoảng tin cậy mẫu lớn (1- ) 100% cho một tỷ lệ quần thể p là
Trong đó là tỷ lệ mẫu của các quan sát với đặc tính cần nghiên cứu và
Chú ý rằng, chúng ta phải thay và vào công thức của để xây dựng khoảng tin cậy Việc xấp xỉ này sẽ hợp lý chừng nào cỡ mẫu n đủ lớn
1.1.4.4 Ước lượng sự khác nhau giữa hai trung bình quần thể
Trong trường hợp ước lượng một trung bình quần thể với mẫu lớn chúng ta đã biết cách ước lượng tham số dựa trên một mẫu lớn được rút từ một quần thể Trong mục này, chugns ta sẽ nghiên cứu một kỹ thuật sử dụng
Trang 22thông tin trong hai mẫu khác nhau để ước lượng sự khác nhau giữa hai trung
dạng xấp xỉ chuẩn với
Giống như khi ước lượng mẫu lớn cho trung bình của một quần thể, giả thiết
về mẫu lớn cho phép chúng ta có thể áp dụng định lý giới hạn trung tâm để thu được phân bố lấy mẫu của ( ) ; đồng thời nó cũng cho phép sử
đã dựa vào để tính khoảng tin cậy là
Các giả thiết cần phải có đối với ước lượng dựa trên mẫu lớn của ( - )
1 Việc mẫu ngẫu nhiên được chọn một cách độc lập từ hai quần thể đích Tức là việc lựa chọn các phần tử trong một mẫu không làm ảnh hưởng
và cũng không bị ảnh hưởng bởi sự lựa chọn của các phần tử trong mẫu kia
Trang 232 Các mẫu và là đủ lớn ( ít nhất là 30)
Khi ước lượng sự khác nhau giữa hai trung bình quần thể dựa trên các mẫu nhỏ được rút ra từ mỗi quần thể chúng ta phải xác định một số giải thiết
về các phân bố tần xuất tương đối của hai quần thể
Các giả thiết cần phải có đối với ước lượng dựa trên mẫu nhỏ của ( - )
- Cả hai quần thể rút mẫu đều phải có các phân bố tần xuất tương đối xấp xỉ dạng chuẩn
- Các mẫu ngẫu nhiên được chọn một cách độc lập từ hai quần thể Khi các giả thiết này được thỏa mãn chúng ta có thể sử dụng thủ tục sau đây được rút từ các quần thể tương ứng
-2) bậc tự do
Vì chúng ta giả thiết rằng hai quần thể có cùng một phương sai
các thông tin của hai mẫu Ước lượng chung này được ký hiệu và được tính bằng công thức đã cho như ở trên
1.1.5 Kiểm định giả thuyết thống kê
1.1.5.1 Hình thành các giả thuyết
Trong thực tế người ta rất muốn biết liệu một đặc tính nào đó của một
quần thể có lớn hơn một giá trị nhất định nào không, hoặc liệu một giá trị của một tham số nào đó mà ta nhận được có bé hơn một giá trị giả định hay không
Trang 24Khi muốn đặt ra một phép thử cho một lý thuyết mới, chúng ta phải hình thành một giả định hay một tiêu chuẩn mà chúng ta tin rằng nó sẽ đúng Giả thuyết mà chúng ta định đặt ra là một giả thuyết thay thế Đi đôi với giả thuyết thay thế là giả thuyết gốc hay giả thuyết đối lập với giả thuyết thay thế Các giả thuyết gốc và giả thuyết thay thế mô tả hai trạng thái tự nhiên có thể
có nhưng không thể đồng thời xảy ra Khi một người nghiên cứu bắt đầu thu thập thông tin về một hiện tượng mà người đó quan tâm thì họ sẽ cố gắng đưa
ra các luận chứng ủng hộ cho giả thuyết thay thế Phương pháp sau là một phương pháp gián tiếp để nhận được kết luận nghiêng về giả thuyết thay thế, tức là thay vì cố chứng minh giả thuyết gốc là đúng chúng ta sẽ đưa ra các dấu hiệu chứng tỏ giả thuyết gốc là sai
Một giả thuyết thống kê là một kết luận về giá trị của một tham số quần thể
Giả thuyết đối lập với giả thuyết mà ta hy vọng có thể là đúng được gọi
là giả thuyết gốc hay giả thuyết không (ký hiệu )
Giả thuyết mà ta mong muốn có thể chứng minh được là đúng được gọi
là giả thuyết thay thế (ký hiệu Ha)
Các nhà nghiên cứu thường rất hay đưa ra một giả thuyết không với hy vọng họ có thể loại bỏ nó
hướng hoặc nhiều khi là một thay đổi không xác định hướng Một kiểm định trong đó giả thuyết thay thế là có hướng được gọi là một kiểm định giả thuyết một phía Một kiểm định trong đó giả thuyết thay thế không được xác định sẽ
đi theo hướng nào tính từ gọi là một kiểm định giả thuyết hai chiều
1.1.5.2 Các kết luận và kết quả có được từ việc kiểm định giả thuyết
Mục đích của việc kiểm định giả thuyết là đưa ra một quyết định liệu
Trang 25ra được một kết luận đúng đắn nhưng quyết định này sẽ phải dựa trên các thông tin mẫu vì vậy chúng ta dễ mắc phải một trong hai loại sai lầm sau:
- Một sai lầm loại I xảy ra nếu chúng ta loại bỏ một giả thuyết không khi nó đúng Xác suất mắc một sai lầm loại I thường được ký hiệu là α
- Một sai lầm loại II xảy ra nếu chúng ta không loại bỏ một giả thuyết không khi nó sai Xác suất mắc một sai lầm loại I thường được ký hiệu là α
Giả thuyết không có thể là đúng hoặc sai vì vậy chúng ta sẽ đưa ra một quyết định chấp nhận hoặc bác bỏ nó Như vậy có bốn tình huống xảy ra khi kiểm định một giả thuyết
Thực chất Giả thuyết không đúng ( sai)
Giả thuyết không sai
một sai lầm loại II chỉ có khi không bị bác bỏ Vì vậy chúng ta có thể không mắc sai lầm hoặc có thể mắc hoặc là sai lầm loại I (với xác suất α) hoặc sai lầm loại II (với xác suất β) nhưng không bao giờ mắc cả hai Khi α tăng thì β giảm và ngược lại Cách duy nhất để giảm α và β một cách đồng thời là làm tăng lượng thông tin có thể có trong mẫu, tức là tăng kích thước của mẫu
Xác suất mắc sai lầm loại I có thể kiểm soát được nên nó thường được lấy làm độ đo về mức độ tin cậy của kết luận
Quy trình xác định các giả thuyết và hình thành các kết luận:
1 Xác định giả thuyết mà ta muốn chứng minh là giả thuyết thay thế
Trang 263 Nếu thông tin của mẫu nghiêng về giả thuyết thay thế thì ta sẽ loại bỏ
cho một giá trị nhỏ tùy ý
thuyết không bị bác bỏ dựa trên mẫu đang xét Trong trường hợp này, chúng ta có thể phải thu thập thêm thông tin về hiện tượng này để nghiên cứu
1.1.5.3 Các thống kê kiểm định và các miền bác bỏ
Khi tiến hành một suy luận thống kê chúng ta phải thu thập thông tin từ một mẫu được rút ngẫu nhiên trong một quần thể mà ta quan tâm Trong tất cả các ứng dụng, ta đều giả thuyết rằng một quy trình lấy mẫu thích hợp đã được thực hiện Quy trình tiến hành kiểm định một giả thuyết là:
1 Thu nhận một mẫu ngẫu nhiên từ quần thể cần nghiên cứu với một giả thuyết là mẫu này đã được rút ra từ một quy trình lấy mẫu thích hợp
2 Xác định một thống kê kiểm định phù hợp với khuôn khổ của phép kiểm định giả thuyết đã cho
Thống kê kiểm định là một thống kê mẫu được tính từ các thông tin rút
ra từ một mẫu, mà mẫu này lại là cơ sở để tiến hành một kết luận liên quan đến các giả thuyết không và giả thuyết thay thế
Khi kiểm định giả thuyết liên quan đến một tham số quần thể nhất định thì thống kê kiểm định chính là ước lượng điểm tương ứng của tham số này
3 Xác định miền bác bỏ, tức là miền các giá trị có thể có của thống kê kiểm định mà đối với các giá trị này giả thuyết không sẽ bị bác bỏ
4 Sử dụng dữ liệu trong mẫu để tính giá trị của thống kê kiểm định
5 Quan sát xem liệu giá trị vừa tính được của thống kê kiểm định có nằm trong miền bác bỏ không Nếu có thì bác bỏ giả thuyết không, ngược lại, không bác bỏ giả thuyết không
Trang 271.2 Bài toán phân tích cụm trong phân tích thống kê dữ liệu
1.2.1 Định nghĩa về phân cụm dữ liệu
Phân cụm dữ liệu (Data Clustering), cũng có thể gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình phân chia một tập các đối tượng, thực thể thành các cụm sao cho các đối tượng trong cùng một cụm thì tương tự nhau còn các đối tượng trong các cụm khác nhau thì không tương
tự nhau Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng
ra các gen nhân tạo hoặc các cụm sinh vật (cá thể) ở mức độ loài hoặc giống
hoặc cao hơn có cùng một số thuộc tính
+ Phiên mã gen
Phân cụm được sử dụng để xây dựng các nhóm gen với các mẫu biểu diễn có quan hệ mật thiết với nhau (còn gọi là các gen đồng biểu hiện) Thông thường thì các nhóm như vậy có chứa các protein liên quan đến chức năng, chẳng hạn như các enzym cho một lộ trình cụ thể, hoặc các gen là đồng quy định
- Phân cụm trong kinh doanh và tiếp thị
+ Nghiên cứu thị trường
Phân tích cụm được sử dụng rộng rãi trong nghiên cứu thị trường khi làm việc với dữ liệu đa biến từ các cuộc điều tra và các cuộc thử nghiệm Các nhà nghiên cứu thị trường sử dụng phân tích cụm để phân vùng người tiêu
Trang 28dùng vào các phân khúc thị trường và hiểu rõ hơn về mối quan hệ giữa các cụm khác nhau của người tiêu dùng / khách hàng tiềm năng, và để sử dụng trong phân khúc thị trường, định vị sản phẩm, phát triển sản phẩm mới và chọn thị trường thử nghiệm
- Phân cụm trong k
+ Phân tích tội phạm
Phân tích cụm có thể được sử dụng để xác định các khu vực có tỷ lệ phạm một tội nào đó cao hơn các khu vực khác Bằng cách xác định những khu vực đặc biệt hoặc các "điểm nóng", nơi một tội ác tương tự đã xảy ra trong một khoảng thời gian nào đó, nhà cầm quyền có thể quản lý và điều hành tốt hơn việc thực thi pháp luật
+ Khai thác dữ liệu giáo dục
Phân tích cụm có thể được sử dụng để xác định nhóm các trường hoặc các học sinh có một số đặc thù tương tự nhau
1.2.2 Một số cách tiếp cận trong phân cụm dữ liệu thống kê
Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các phương pháp tiếp cận chính như sau:
1.2.2.1 Phân cụm phân họach
Phương pháp phân cụm phân hoạch (Partitioning Method) dùng để phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan
hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ
Trang 29hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược tham lam để tìm kiếm nghiệm Điển hình trong phương pháp tiếp cận theo phân cụm phân họach là thuật toán như K_means
1.2.2.2 Phương pháp phân cụm phân cấp
Phương pháp phân cụm phân cấp (Hierarchical) xây dựng một cây phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập
dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này
đó là: hòa nhập nhóm, thường được gọi là tiếp cận dưới lên (Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận trên xuống (Top-Down)
- Phương pháp “dưới lên” (Bottom up)
Phương pháp này bắt đầu với mỗi đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm
Trang 30- Phương pháp “trên xuống” (Top Down)
Phương pháp này lại bắt đầu với trạng thái là tất cả các đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm
Trong thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm
dữ liệu cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong khai phá dữ liệu
Trang 31CHƯƠNG 2 MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU 2.1 Thuật toán phân cụm dữ liệu dựa vào phân cụm phân hoạch
2.1.1 Thuật toán K – means
K- means là thuật toán phân cụm mà định nghĩa các cụm bởi trung tâm của các phương tử Phương pháp này dựa trên độ đo khoảng cách của các đối tượng dữ liệu trong cụm Nó được xem như là trung tâm của cụm Như vậy,
nó cần khởi tạo một tập trung tâm các trung tâm cụm ban đầu, và thông qua
đó nó lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tầm gần, và tính toán tại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tượng Quá trình này dừng khi các trung tâm hội tụ
Hình 2.1: Các thiết lập để xác định danh giới các cụm ban đầu
Trong phương pháp K-means, chọn một giá trị k và sau đó chọn ngẫu nhiên k trung tâm của các đối tượng dữ liệu Tính toán khoảng cách giữa đối tượng dữ liệu trung bình mỗi cụm để tìm kiếm phần tử nào là tương tự và thêm vào cụm đó Từ khoảng cách này có thể tính toán trung bình mới của cụm và lặp lại quá trình cho đến khi mỗi các đối tượng dữ liệu là một bộ phận của các cụm k
Mục đích của thuật toán K – means là sinh k cụm dữ liệu { C1, C2,…,
Ck} từ một tập dữ liệu chứa n đối tượng trong không gian d chiều Xi = {xi1,
Trang 32xi2,…,xid}, I = 1 n, sao cho hàm tiêu chuẩn: E =
đạt giá trị tối thiểu
Trong đó: Mi là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối tượng Trọng tâm của cụm là một vecto, trong đó giá trị của mỗi phần tử của
nó là trung cộng của các thành phần tương ứng của các đối tượng vecto dữ liệu trong cụm đang xét Tham số đầu vào của thuật toán là số cụm k, và tham
số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng cách D giữa các đối tượng dữ liệu thường được sử dụng là khoảng cách Euclide vì đây là mô hình khoảng cách nên dễ lấy đạo hàm và xác định các cực trị tối thiểu Hàm tiêu chuẩn và độ đo khoảng cách có thể được xác định
cụ thể hơn tùy ý vào ứng dụng hoặc quan điểm của người dùng
Hình 2.2: Tính toán trọng tâm của các cụm mới
Các bước cơ bản của thuật toán K – means
Input: số cụm k và các trọng tâm cụm
Begin:
Bước 1: Khởi tạo
dữ liệu) Việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm
Trang 33Bước 2: Tính toán khoảng cách
Bước 3: Cập nhật lại trọng tâm
trung bình cộng các vecto đối tượng dữ liệu
Trang 34- MSE : Sai số bình phương trung bình hay là hàm tiêu chuẩn
- (x[i]; m[j] : Khoảng cách Euclide từ đối tượng thứ i tới trọng tâm j;
- OldMSE m’[j], n’[j] : Biến tạm lưu giá trị cho trạng thái trung gian cho các biến tương ứng
Hình 2.3: Ví dụ hình dạng phân cụm bằng K-means
Chất lượng của thuật toán K –mean phụ thuộc nhiều vào các tham số đầu vào như : số cụm k, và k trọng tâm khởi tạo ban đầu Trong trường hợp các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của K – means là rất thấp, nghĩa là các cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế, chưa có một giải
Trang 35pháp nào để chọn tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất
2.1.2 Thuật toán PAM
Thuật toán PAM là thuật toán mở rộng của thuật toán K-means nhằm
có khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc phần tử ngoại lai, PAM
sử dụng các đối tượng medoid để biểu diễn cho các cụm dữ liệu, một đối tượng medoid là đối tượng đặt tại vị trí trung tâm nhất bên trong mỗi cụm
Vì vậy, đối tượng medoid ít bị ảnh hưởng của các đối tượng ở rất xa trung tâm, trong khi đó các trọng tâm của thuật toán K – means lại rất bị tác động bởi các điểm xa trung tâm này Ban đầu, PAM khởi tạo k đối tượng medoid và phân phối các đối tượng còn lại vào các cụm với đối tượng medoid đại diện tương ứng sao cho chúng tương tự đối với medoid trong cụm nhất
khi đó ta nói Oj thuộc về cụm có đối tượng medoid là Om làm đại diện nếu
Oe, minOe là giá trị nhỏ nhất của độ phi tương tự giữa và tất cả các đối tượng medoid của các cụm dữ liệu chất lượng của mỗi cụm được khám phá được đánh giá thông qua độ phi tương tự trung bình giữa một đối tượng và đối tượng medoid tương ứng với cụm của nó, nghĩa là chất lượng phân cụm được đánh giá thông qua chất lượng của tất cả các đối tượng medoid Độ phi tương tự được xác định bằng độ đo khoảng cách, thuật toán PAM được áp dụng cho dữ liệu không gian Để xác định các medoid, PAM được áp dụng cho dữ liệu không gian
Để xác định các medoid, PAM bắt đầu bằng cách lựa chọn k đối tượng medoid bất kỳ Sau mỗi bước thực hiện , PAM cố gắng hoán chuyển giữa đối tượng Medoid và một đối tượng , không phải là medoid, miễn là sự
Trang 36hoán chuyển này nhằm cải tiến chất lượng của phân cụm, quá trình này kết thúc khi chất lượng phân cụm không thay đổi Chất lượng phân cụm được đánh giá thông qua hàm tiêu chuẩn, chất lượng phân cụm tốt nhất khi hàm tiêu chuẩn đạt giá trị tối thiểu
PAM tính giá trị cho tất cả các đối tượng để làm căn cứ cho việc hoán chuyển giữa và : là đối tượng medoid hiện thời cần được thay thế :
: Là đối tượng dữ liệu ( Không phải medoid) có thể được di chuyển sang cụm khác;
Các bước thực hiện thuật toán PAM
Input : Tập dữ liệu có n phần tử, số cụm k
Output : k cụm dữ liệu sao cho chất lượng phân hoạch là tốt nhất
BEGIN
1 Chọn k đối tượng medoid bất kỳ;
2 Tính TCmp cho tất cả các cặp đối tượng Om, Op Trong đó, Om là đối
3 Chọn cặp đối tượng Om và Op Tính MinOm, MinOp, TCmp, nếu TCmp
là âm thay thế Om bởi Op và quay lại bước 2 Nếu TCmp dương, chuyển sang bước 4;
4 Với mỗi đối tượng không phải medoid, xác định đối tượng medoid
tương tự với nó nhất đồng thời gán nhãn cụm cho chúng
END
Trang 372.1.3 Thuật toán CLARA
Thuật toán CLARA được đưa ra nhằm khắc phục nhược điểm của thuật toán PAM trong trường hợp giá trị k và n là lớn CLARA tiến hành trích mẫu cho tập dữ liệu có n phần tử, nó áp dụng thuật toán PAM cho mẫu này và tìm
ra các đối tượng trung tâm medoid cho mẫu được trích ra từ dữ liệu này Nếu mẫu dữ liệu được trích theo một cách ngẫu nhiên, thì các medoid của nó xấp
xỉ với các medoid của toàn bộ tập dữ liệu ban đầu Để tiến tới một xấp xỉ tốt hơn, CLARA đưa ra nhiều cách lấy mẫu và thực hiện phân cụm cho mỗi trường hợp, sau đó tiến hành chọn kết quả phân cụm tốt nhất khi thực hiện phân cụm trên mẫu này Để đo chính xác, chất lượng của các cụm được đánh giá thông qua độ phi tương tự trung bình của toàn bộ các đối tượng dữ liệu trong tập đối tượng dữ liệu ban đầu Kết quả thực nghiệm chỉ ra rằng, 5 mẫu
dữ liệu có kích thước 40 +2k cho kết quả tốt Các bước thực hiện của thuật toán CLARA:
CLARA (5);
BEGIN
1 For i = 1 to 5 do
2 Lấy một mẫu có 40 + 2k đối tượng dữ liệu ngẫu nhiên từ tập dữ liệu
và áp dụng thuật toán PAM cho mẫu dữ liệu này nhằm để tìm các đối tượng medoid đại diện cho các cụm
3 Đối với mỗi tượng Oj trong tập dữ liệu ban đầu, xác định đối tượng medoid tương tự nhất trong số k đối tượng medoid
4 Tính độ phi tương tự trung bình cho phân hoạch các đối tượng thu được ở bước trước, nếu giá rị này bé hơn giá trị tối thiểu hiện thời thì sử dụng giá trị này thay cho giá trị tối thiểu ở trạng thái trước, như vậy tập k đối tượng medoid xác định ở bước này là tốt nhất cho đến thời điểm này
5 Quay về bước 1
Trang 38END
Phương pháp medoid không hiệu quả với trường hợp tập dữ liệu lớn, như vậy, phương pháp dựa trên mẫu được gọi là CLARA Ở đây, một phần nhỏ dữ liệu hiện thời được chọn như một đại diện của dữ liệu thay vì sử dụng toàn bộ dữ liệu và sau đó medoid được chọn từ mẫu sử dụng PAM Nếu mẫu được chọn theo cách ngẫu nhiên thì nó có thể cần phải đại diện tập dữ liệu gốc Các đối tượng đại diện (medoids) được chọn là tương tự mà đã được chọn từ tập dữ liệu Nó đưa ra nhiều mẫu của tập dữ liệu, áp dụng PAM trên mỗi mẫu, và trả lại cụm tốt nhất ở đầu ra, như vậy, CLARA có thể xử lý với tập dữ liệu lớn hơn PAM
2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ
2.2.1 Thuật toán DBSCAN
Thuật toán DBSCAN thích nghi với mật độ dầy để phân cụm và khám phá ra các cụm có hình dạng bất kỳ trong không gian CSDL có nhiễu Nó có định nghĩa cụm là tập tối đa các điểm liên thông mật độ
Phân cụm dựa vào mật độ là tập các đối tượng liên thông mật độ mà tối
đa về liên lạc mật độ, mỗi đối tượng không được chứa trong cụm là được xem xét nhiễu Trên thực tế DBSCAN tìm kiếm cho các cụm bằng cách kiểm tra các đối tượng mà có số đối tượng láng giềng nhỏ hơn một ngưỡng tối thiểu, tức là có tối thiểu MinPts đối tượng và mỗi đối tượng trong cụm tồn tại một đối tượng khác trong cụm giống nhau với khoảng cách nhỏ một ngưỡng Eps.Tìm tất cả các đối tượng mà các láng giềng của nó thuộc về lớp các đối tượng đã xác định ở trên, một cụm được xác định bằng một tập tất cả các đối tượng liên thông mật độ các láng giềng của nó DBSCAN lặp lại tìm kiếm ngay khi các đối tượng liên lạc mật độ từ các đối tượng trung tâm, nó có thể bao gồm việc kết hợp một số cụm có mật độ liên lạc Quá trình kết thúc khi không tìm được điểm mới nào có thể thêm vào bất cứ cụm nào
Trang 39DBSCAN có thể tìm ra các cụm với hình thù bất kỳ, trong khi đo tại cùng một thời điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng dữ liệu nhập vào Khi có một đối tượng được chèn vào chỉ tác động đến một láng giếng xác định Mặt khác , DBSCAN sử dụng tham số Eps và MinPts trong thuật toán
để kiểm soát mật độ của các cụm DBSCAN bắt đầu với một điểm tùy ý và xây dựng mật độ láng giềng có thể được đối với Eps và MinPts, Vì vậy DBSCAN yêu cầu người dùng xác định bán kính Eps của láng giềng và số các láng giềng tối thiểu MinPts, các tham số này khó mà xác định được tối ưu, thông thường nó được xác định bằng phép chọn ngẫu nhiên hoặc theo kinhnghiệm Độ phức tạp của DBSCAN là O( ), nhưng nếu áp dụng chỉ số không gian để giúp xác định các láng giềng của một đối tượng dữ liệu thì độ phức tạp của DBSCAN được cải tiến là O(nlogn) Thuật toán DBSCAN có thể áp dụng cho các tập dữ liệu không gian lớn đa chiều, khoảng cách Eucle
có thể áp dụng cho tập dữ liệu không gián lớn đa chiều, khoảng cách Eclide được sử dụng để đo sự tương tự giữa các đối tượng nhưng không hiệu quả đối với dữ liệu đa chiều
- Định nghĩa 1: Lân cận với ngưỡng Eps của một điểm p ký hiệu
Eps D là tập dữ liệu cho trước
thiểu MinPts điểm Số điểm tối thiểu được chọn là bao nhiêu cũng là bài toán khó vì nếu số điểm tối thiểu lớn thì chỉ những điểm nằm thực sự trong cụm C mới đạt đủ tiêu chuẩn, trong khi đó những điểm nằm ngoài biên của cụm không thể đạt được điều đó Ngược lại, nếu số điểm tối thiểu là nhỏ thì mọi điểm sẽ rơi vào một cụm
Theo định nghĩa trên, chỉ những điểm nằm trong cụm mới thỏa mãn
Trang 40thỏa mãn điều kiện đó, bởi vì thông thường thì lân cận với ngưỡng Eps của điểm biên thì bé hơn lân cận với ngưỡng của Eps của điểm nhân
Để tránh được điều này, có thể đưa ra một tiêu chuẩn khác để định nghĩa một điểm thuộc vào một cụm như sau : Nếu một điểm p muốn thuộc một cụm C phải tồn tại một điểm thuộc một cụm như sau: Nếu một điểm p
sử dụng để mô tả thuộc tính của các điểm dữ liệu, là mật độ liên lạc trực tiếp, mật độ liên lạc và mật độ liên thông được định nghĩa như sau :
- Định nghĩa 2 : Mật độ liên lạc trực tiếp Một điểm p được gọi là liên
lạc trực tiếp từ điểm q với ngưỡng Eps nếu :
thể thấy liên lạc trực tiếp là một hàm phản xạ và đối xứng với hai điểm nhân
và bất đối xứng nếu một trong hai điểm đó không phải là điểm nhân
- Định nghĩa 3 : Mật độ liên lạc
Một điểm p được gọi là liên lạc từ một điểm q theo tham số Eps và MinPts
lạc được với nhau bởi vì cả hai đều không thỏa mãn điều kiện nhân
- Định nghĩa 4 : Mật độ liên thông
Một điểm p được gọi là liên thông với điểm q theo tham số Eps và MinPts nếu tồn tại một điểm O mà cả hai điểm p, q đều có thể liên lạc được theo tham
số Eps và MinPts Mật độ liên thông có tính chất đối xứng và phản xạ
- Định nghĩa 5 : Cụm