Tìm hiểu thuật toán gom cụm ISODATA và cài đặt chương trình minh họa
Trang 1TÊN ĐỀ TÀI: Tìm hiểu thuật toán ISODATA
Mục lục:
BẢNG PHÂN CÔNG CÔNG VIỆC 2
I.Giới thiệu về kỹ thuật phân cụm trong Khai phá dữ liệu 3
1.Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như: 3
2.Các kỹ thuật phân cụm được phân loại như sau (xem hình) 4
II.GIỚI THIỆU VỀ THUẬT TOÁN ISODATA 5
III.TÌM HIỂU VỀ THUẬT TOÁN 5
1.Các tham số của bài toán: 5
2.Làm thế nào các thuật toán ISODATA thực hiện 5
3.Thủ tục hoạt động như sau: 8
4.Những nhược điểm của ISODATA : 9
5.Ưu điểm của ISODATA 9
6.Mô hình thuật toán ISODATA 9
7.Ví dụ minh họa 9
IV.Tài liệu tham khảo 13
Trang 2BẢNG PHÂN CÔNG CÔNG VIỆC
Thầy giáo hướng dẫn: Trần Hùng Cường.
ĐẠT ĐƯỢC STT Tên công việc Ngày bắt
đầu
Người thực hiện công
việc
nghiệm thu
1. Tìm tài liệu về
thuật toán ISODATA
01/04/2011 Nguyễn Hữu Quỳ 4/04/2011 Hoàn thành
Nguyễn Văn Tuyển
Lê Nho Lộc
2 Tìm hiểu thuật
toán ISODATA
5/04/2011 Lê Nho Lộc 6/04/2011 Hoàn thành
Nguyễn Văn Tuyển Nguyễn Hữu Quỳ Nguyễn Trung Kiên
3 TÌm hiểu chương
trình chạy bằng thuật toán ISODATA
7/04/2011 Lê Nho Lộc 09/04/2011 Không hoàn thành do không
tìm được trên INTERNET Không viết được chương trình chạy
Nguyễn Văn Tuyển Nguyễn Hữu Quỳ Nguyễn Trung Kiên
4 Tổng kết 10/04/2011 Lê Nho Lộc 02/05/2011
Trang 3I.Giới thiệu về kỹ thuật phân cụm trong Khai phá dữ liệu
Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các
phương pháp Unsupervised Learning trong Machine Learning Có rất nhiều
định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (Dissimilar) nhau
Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters) Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh hiệu của của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: data reduction, “natural clusters”, “useful” clusters, outlier detection
1.Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như:
Marketing: Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại và dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ của công ty để giúp công ty có chiến lược kinh doanh hiệu quả hơn
Biology: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng
Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…
Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tài chính, dự đoán xu hướng (trend) của khách hàng, phát hiện gian lận tài chính (identifying frauds)
WWW: Phân loại tài liệu (document classification); phân loại người dùng web (clustering weblog);…
Trang 42.Các kỹ thuật phân cụm được phân loại như sau (xem hình)
Trang 5II GIỚI THIỆU VỀ THUẬT TOÁN ISODATA
ISODATA là viết tắt của từ Iteractive Self Organizing Data Analysis.
ISODATA là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật
phân cụm
Tư tưởng chính của thuật toán ISODATA là tìm cách phân nhóm các đối tượng
(objects) đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyên dương) sao cho khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ nhất
ISODATA là một phương pháp học không có giám sát
Nó là thuật toán khá mềm dẻo, không cần cố định các lớp trước Nó không phải
là cần thiết để xác định số lượng cụm Nó bắt đầu với một nhóm duy nhất và áp dụng một kỹ thuật chia-và-hợp nhất để dần dần phân vùng các điểm vào cụm hơn thông qua liên tục đánh giá sự giống nhau trong một cluster (lớp hoặc nhóm) Sự tương tự của các điểm trong một cụm được đo bằng độ lệch chuẩn của điểm trong cả X và Y hướng đó là σx và σy.x và σx và σy.y
III.TÌM HIỂU VỀ THUẬT TOÁN
1 Các tham số của bài toán:
- Số lần lặp
- Ngưỡng thay đổi lớp
- Và 1 số tham số khác như số điểm ảnh tối thiểu trong 1 lớp, khoảng cách tối thiểu trong 1 lớp,…
2.Làm thế nào các thuật toán ISODATA thực hiện.
(1) Nó sử dụng một thước đo khoảng cách di xuất phát từ giả định phân phối Gaussian đa variate, mà PDF của lớp i, 1, giả sử M lớp , được cho bởi:
p{x | i} = ( 2 ) / 2 | | 1 / 2
1
i
P C
x i t C i1 x i
2
1
(1)
Ở đây x là một P-vector, có chứa các giá trị trong các kênh đầu vào P, i là vector có nghĩa là cho lớp i, là ma trận hiệp phương sai của lớp i và biểu thị yếu
tố quyết định
Trang 6(2) Một điểm ảnh được gán cho lớp với khả năng cao nhất Kể từ khi đăng nhập là một chức năng đơn điệu, do đó chúng tôi có thể tối đa hóa ln (p {x
| i}), tương đương với giảm thiểu hơn i
i i
t i
(3) Giả sử hình ảnh có chứa điểm ảnh N, và rằng các điểm ảnh được dán nhãn bởi n, Tại một lần lặp nhất định, các điểm ảnh được gán cho lớp i trong hình ảnh được xác định bởi địa điểm điểm ảnh của nó Biểu thị số lượng điểm ảnh trong lớp i là, chúng ta có thể ước tính có nghĩa là lớp học và hiệp phương sai như
i
i
I n n i
1
(3)
i
I n
i n i n
t i ι I
n
t n n
x x
1
(4) (4) Tại mỗi lần lặp, ghi nhãn hiện nay được sử dụng để tính toán phương tiện và hiệp phương sai, sử dụng (3) và (4) Mỗi điểm ảnh trong hình ảnh sau đó được gán lại cho một lớp học bằng cách giảm thiểu các đo khoảng cách (2) Quá trình này dừng lại ở một số cố định của lặp đi lặp lại hoặc khi tỷ lệ các lớp thay đổi điểm ảnh giảm xuống dưới một ngưỡng cố định (hoặc có thể khi tỷ lệ các điểm ảnh trong mỗi lớp học mà thay đổi lớp học giảm xuống dưới một ngưỡng)
(5) khởi động là quan trọng Một cách tiếp cận là giao điểm ảnh cho một lớp học ngẫu nhiên Đó là cách tiếp cận không bó chặt chẽ nhất, giả sử không có kiến thức của các cụm có khả năng Thay vào đó, ban đầu chúng tôi phân vùng các điểm ảnh bằng cách chia phạm vi của sự gắn kết trong hình ảnh vào M khoảng thời gian bằng nhau, như chúng ta biết sự gắn kết là một nguồn thông tin chủ yếu Tuy nhiên, chúng ta có thể thấy tại sao sẽ có một vấn đề nếu trong phân
Trang 7vùng ban đầu có một lớp thiểu số Sau đó, trong các tính toán (3) và (4) sẽ không có đủ điểm ảnh trong lớp này để gây sự đáng kể số liệu thống kê của lớp
đa số Do đó các lớp thiểu số không bao giờ có thể thiết lập bản sắc riêng biệt của nó Để ngăn chặn điều này chúng ta nên hạt giống quá trình với kiến thức sẵn có, nghĩa là, thiết lập phân vùng ban đầu để phản ánh sự hiểu biết của -JERS-ERS có -JERS hoặc khối lượng chúng ta về các phần của máy bay thể được chiếm bởi các lớp khác nhau về thể chất Đây là những gì cơ bản lưu ý về phân loại cho chúng ta biết làm thế nào để làm (Những lưu ý sau đây cho thấy kết quả khi chúng ta hạt giống 'nước' trong lớp học khởi sự)
(6) Thủ tục này giả định các lớp Gaussian, và những giao dịch một cách chính xác với xác suất doanh trong bối cảnh này Kết quả cho thấy rằng cả hai JERS và ERS ảnh hưởng đến việc phân loại, không giống như một cách tiếp cận dựa trên sự kết hợp tinh khiết Cấu trúc là trong một hình thức trực tiếp thích hợp cho
(I) làm sạch của ICP
(Ii) tính toán xác suất lỗi, mà theo đó chúng ta có thể lấy được các thay đổi trong nội tại trong lỗi đi từ nói 4-5 lớp học
Tuy nhiên, những tính toán này sẽ bị lỗi nếu có các biểu đồ lớp quan sát khởi hành từ Gaussian đáng kể (ví dụ, nếu họ là hai đỉnh) Do đó chẩn đoán khác sẽ
là khôn ngoan nếu nó được sử dụng để tính toán lỗi
(7) Chúng tôi đang suy nghĩ rằng toàn bộ quá trình có thể được thực hiện
tự động, tức là, loại bỏ sự cần thiết phải kiểm tra và can thiệp phân tán tất cả các nhà điều hành Chúng tôi cần phải xác định làm thế nào để thiết lập khởi động tự động, bằng cách lý luận vật lý gắn liền với đặc tính hình ảnh toàn cầu như phạm
vi của các giá trị của sự gắn kết (tức là, thích ứng với sự lây lan sự gắn kết, như trong cách tiếp cận Wolfgang, nhưng xây dựng trong kiến thức về các kênh khác) Khởi động này có thể dễ dàng được thực hiện có điều kiện trên, ví dụ,
Trang 8mùa giải, trong đó các dữ liệu được mua lại Sau đó, để cho các thuật toán ISODATA chạy
3.Thủ tục hoạt động như sau:
1.Xác định giá trị cho phép đối với các độ lệch chuẩn đó là σx và σy.x tối đa
và σx và σy.y tối đa
2 Xác định số lượng các cụm (K) và số lần lặp (n) (tùy chọn)
3 Hãy đối xử với tất cả các điểm như đang trong cùng một nhóm để tính toán các phương tiện (Cold,X và Cold,X ) và độ lệch chuẩn (σx và σy.x và σx và σy.x) ở cả hai
X và Y
4 Xác định xem có cần phải phân chia các cụm Nếu σx và σy.x < σx và σy.x tối đa và σx và σy.x
<σx và σy.y tối đa, sau đó dừng lại chia tách Nếu số quy định của lặp đi lặp lại hoặc số cụm được đạt tới, dừng lại tách Sau đó, nếu σx và σy.x > σx và σy.y, hãy xem xét hướng X, hoặc người nào khác xem xét theo hướng Y
5 Chia thành hai nhóm theo hướng X nếu σx và σy.x > σx và σy.y và σx và σy.x> σx và σy.x tối đa Các trung tâm tạm thời mới được (Cold,X - σx và σy.x) và (Cold,X + σx và σy.x) Phân loại các điểm trong các cụm cũ thành hai cụm mới dựa trên tiêu chí khoảng cách Làm thế nào bao giờ hết, nếu σx và σy.Y > σx và σy.x và σx và σy.Y > σx và σy.y,max, sau đó sẽ được chia theo hướng Y
6 Đối với mỗi cụm mới, lặp lại các bước 4 đến 5
7 Kiểm tra mỗi điểm để xem liệu khoảng cách đến trọng tâm cụm của nó là nhỏ nhất trong số các khoảng cách cho tất cả các điểm Nếu không, phân loại lại các điểm và lặp lại tương ứng điểm
4.Những nhược điểm của ISODATA :
Có thể mất thời gian nếu dữ liệu rất phi cấu trúc
Thuật toán có thể tràn ra không kiểm soát chỉ để lại một lớp
5.Ưu điểm của ISODATA
Bạn không cần phải biết nhiều về dữ liệu trước
Trang 9Người sử dụng dùng ISODATA rất hiệu quả để xác định các cụm quang phổ trong dữ liệu
6.Mô hình thuật toán ISODATA
7.Ví dụ minh họa.
Hình minh họa quá trình ISODATA phân nhóm Có 14 điểm thể hiện trong hình được sử dụng một lần nữa Trong ví dụ này, số lượng các cụm được định nghĩa
là bốn, số lần lặp như ba và σx và σy.x tối đa và σx và σy.Y tối đa là Hình 1.4a cho thấy việc xem xét tất cả các điểm như là trong cùng một cụm (lớp hoặc một nhóm), với K1 là điểm trung tâm Các độ lệch chuẩn của cụm này trong X và Y là 2,1 và 3.0, tương ứng Những giá trị này lớn hơn so với ngưỡng Việc phân chia đầu tiên là thực hiện theo hướng Y vì σx và σy.Y > σx và σy.x K2, 1 và K2, 2 là hai cụm mới trung tâm Nhóm sau đó được thực hiện dựa trên khoảng cách, như trong hình b
Trang 11Các điểm và độ lệch chuẩn của hai cụm mới này sau đó được tính toán Nó được tìm thấy rằng độ lệch chuẩn Y của lớp tâm tại K2, 2 là σx và σy.Y lớn hơn tối đa, và sau
đó là chia thêm được thực hiện Quá trình này được thể hiện trong hình Các điểm và độ lệch chuẩn của hai cụm mới tính toán Nó đã được phát hiện ra rằng
độ lệch chuẩn X của lớp tâm tại K3, 2 lớn hơn σx và σy.X tối đa, và sau đó là chia thêm được thực hiện, như trong hình 4.3d Các điểm của hai cụm mới này sau đó được tính toán Cuối cùng, mỗi điểm được kiểm tra để xem liệu khoảng cách đến trọng tâm cụm của nó là nhỏ nhất trong số các khoảng cách cho tất cả các điểm cụm Nó đã được phát hiện ra rằng một điểm trong cụm tâm tại K2, 1 nên được phân thành các cụm trung tâm tại K3, 1 Điều này điểm sau đó được phân loại lại Kết quả là, các điểm của cả hai cụm đã được thay đổi (Hình e) Do đó, một điểm trong cụm tâm tại K3, 1 được phân loại lại thành K4, 1 Sau đó, các điểm của cả hai cụm được di chuyển, gây ra một điểm nữa để được phân loại lại trong cụm tâm tại K3, 1 (hình f)
Trang 12Ví dụ 2
Trang 13IV.Tài liệu tham khảo
1.Giáo trinh lý thuyết nhận dạng- Trần Hùng Cường - Bộ môn HTTT – khoa CNTT- ĐHCN Hà nội
2.Tim hiểu trên INTERNET
http://www.squeak.org
http://bis.net.vn