1. Trang chủ
  2. » Luận Văn - Báo Cáo

Các thuật toán phân tích phân cụm và ứng dụng

64 432 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 757,74 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đối với những vấn đềkhác như bài toán kinh tế, có thể cần đến một loại hệ thu thập dữ liệu đặcthù để thu được một tập dữ liệu phù hợp.Trong quá trình tiền xử lý dữ liệu chúng ta thường s

Trang 1

Lời nói đầu iii

1.1 Khái niệm về dạng và nhận dạng 1

1.1.1 Khái niệm về dạng, lớp dạng 1

1.1.2 Khái niệm nhận dạng: 2

1.2 Không gian mẫu và cách tiếp cận nhận dạng 2

1.3 Một số ứng dụng của nhận dạng: 5

1.3.1 Nhận dạng giọng nói 6

1.3.2 Nhận dạng chữ viết tay 7

1.3.3 Dự báo thời tiết 7

1.3.4 Phân tích điện tâm đồ để chẩn đoán hoạt động của tim 8

1.3.5 Phân tích y học bằng chụp tia X-quang 8

1.3.6 Làm rõ các bức ảnh chụp từ vệ tinh và khoảng không 8 1.4 Học có hướng dẫn và không có hướng dẫn 9

2 Phân tích phân cụm và các thuật toán phân cụm 11 2.1 Phân tích phân cụm 11

2.1.1 Khái niệm phân cụm 11

2.1.2 Ứng dụng của phân cụm 13

2.1.3 Các yêu cầu của phân tích phân cụm 13

2.2 Các độ đo thường được sử dụng trong phân tích phân cụm 15 2.2.1 Độ đo sự gần gũi 15

2.2.2 Khoảng cách giữa hai cụm (interset) và khoảng cách nội cụm (intraset) 17

2.3 Phân cụm trong trường hợp số lớp chưa biết 19

2.3.1 Thuật toán sử dụng phương pháp trực quan 19

2.3.2 Thuật toán Batchelor và Wilkins 21

Trang 2

2.4.2 Thuật toán ISODATA hiệu chỉnh 34

2.4.3 Thuật toán K-means 36

2.5 Thuật toán K*-means 40

2.5.1 Độ đo cho phân cụm dữ liệu 41

2.5.2 Thuật toán K*-means 45

2.6 Kết quả thực nghiệm 48

3 Chương trình ứng dụng thuật toán ISODATA 52 3.1 Nêu lại ví dụ: 52

3.2 Các trường hợp tính toán 52

Trang 3

Cuộc sống ngày càng hiện đại, khoa học công nghệ ngày càng pháttriển và đạt được nhiều thành tựu to lớn, phục vụ thiết thực cho cuộc sốngcủa con người Trong những thành tựu đó không thể không nhắc tới côngnghệ nhận dạng Công nghệ nhận dạng sử dụng khả năng tính toán củamáy tính để xử lý một khối lượng dữ liệu lớn thành các thông tin cần thiếtdựa vào quá trình nhận dạng của con người Nhờ công nghệ nhận dạngbạn có thể điều khiển các đồ vật trong nhà mình không cần bằng tay màbằng giọng nói, hay bạn không phải tra thìa khóa vào ổ để mở cửa mà chỉcần đặt tay vào máy nhận dạng là cửa tự động mở, v.v Còn vô số các ứngdụng mà bạn không thể ngờ tới trong tương lai không xa Công nghệ cuộcsống, điều đó thật thú vị phải không? Đó là lí do vì sao chúng tôi chọn đềtài "Các thuật toán phân tích phân cụm và ứng dụng" Không đi sâu vàonghiên cứu từng ứng dụng cụ thể của nhận dạng ở trên mà luận văn nàytập trung vào ba chương chính:

Chương 1: Nêu khái quát chung về nhận dạng, bao gồm khái niệm

về dạng, lớp dạng và khái niệm nhận dạng, cùng với những ứng dụng củanhận dạng Qua đó cung cấp cho chúng ta một cách nhìn tổng quan vềnhận dạng

Chương 2: Đây là nội dung chính của bản luận văn Chương này gồm

là thuật toán ISODATA và thuật toán K-means, phân tích ưu nhược

Trang 4

Chương 3: Xây dựng chương trình ứng dụng minh họa cho thuật toánISODATA, trong đó có ứng dụng thuật toán ISODATA để phân cụm dữliệu với số liệu đầu vào cho trước, đồng thời trình bày thuật toán sinh

số liệu phân phối chuẩn hai chiều qua mô phỏng và từ đó áp dụng thuậttoán ISODATA để phân cụm dữ liệu vừa sinh

Qua đây, chúng tôi xin được gửi lời cảm ơn sâu sắc đến người thầy,người hướng dẫn khoa học của mình, TS Nguyễn Hữu Tiến, người đãđưa ra đề tài và tận tình hướng dẫn trong suốt quá trình nghiên cứu củachúng tôi Đồng thời xin gửi lời cảm ơn sâu sắc đến các thầy cô trongkhoa Toán - Cơ - Tin học trường Đại học Khoa học Tự nhiên, Đại họcQuốc gia Hà Nội, đã dạy bảo và tạo mọi điều kiện cho chúng tôi về tàiliệu và thủ tục hành chính để hoàn thành bản luận văn này Cuối cùngxin gửi lời cảm ơn chân thành đến gia đình, bạn bè đã động viên giúp đỡtrong quá trình thực hiện luận văn

Do thời gian và trình độ còn hạn chế, chắc chắn bản luận văn khôngthể tránh khỏi những thiếu sót, chúng tôi rất mong nhận được sự chỉ bảotận tình của các thầy cô và bạn bè đồng nghiệp, xin chân thành cảm ơn!

Hà Nội, ngày 20 tháng 11 năm 2010

Học viên

Lê Đăng Điển

Trang 5

Khái quát chung về dạng

Khái niệm về lớp dạng: Dạng có thể được xác định định lượng hayđược mô tả cấu trúc của đối tượng mà chúng ta quan tâm Theo đó mộtlớp dạng có thể được hiểu là một tập hợp các dạng có một số thuộc tínhchung

Thông thường, dạng được mô tả như một điểm trong không gian đachiều thích hợp nào đó gọi là không gian dạng (mỗi chiều tương ứng vớimột đặc trưng nào đó của dạng)

Trang 6

1.1.2 Khái niệm nhận dạng:

Nhận dạng là quá trình phân loại các dữ liệu đo được hay nhận thấyđược thành một thành phần của một trong số những lớp hay cụm khácnhau Thực tế ta có thể xây dựng cấu trúc phân biệt các lớp dạng khácnhau Ví dụ như, không khó để phân biệt giới tính nam-nữ, phân biệt người

ở khu vực này khu vực kia trên thế giới Mục đích chung của các nghiêncứu nhận dạng là tìm ra cơ chế hoạt động của quá trình nhận dạng, môphỏng tính năng và xử lý các thủ tục nhận dạng bằng công nghệ hiện đạinhằm phục vụ cho các nhu cầu thiết thực hằng ngày của con người Nhậndạng là một nhánh của trí tuệ nhân tạo mang tính liên ngành, rất nhiềunhà khoa học đã áp dụng công nghệ nhận dạng để giải quyết những vấn

đề trong lĩnh vực nghiên cứu của họ như khảo cổ học, thiên văn học, mật

mã, địa lí, địa chất,

Thông thường công nghệ nhận dạng được áp dụng khi:

• Các phương pháp phân tích truyền thống thất bại

• Việc áp dụng phương pháp mô hình hóa không phù hợp

• Các xử lý dựa theo mô phỏng trở nên kém hiệu quả

Chúng ta thường phân biệt hai loại bài toán nhận dạng cơ bản sau:

1 Nhận dạng các đối tượng cụ thể: là nhận dạng giữa các dạng vật thểmang tính chất không gian và thời gian Ví dụ, không gian là quangcảnh, tranh ảnh, biểu tượng, các kí tự (chữ Latinh, chữ Ả rập, chữTrung Hoa), các bản đồ thời tiết, điện tâm đồ (ECG), điện não đồ(EEG), hình ảnh chụp X-quang,

2 Nhận dạng đối tượng trừu tượng: là nhận dạng khái niệm Ví dụ, khinghe một bản nhạc ta có thể nhận biết được bài đó có giai điệu đànguitar hay piano

1.2 Không gian mẫu và cách tiếp cận nhận

dạng

Chúng ta cần lựa chọn, đo đạc hay quan sát để thu thập một tập dữliệu về một hiện tượng nào đó Nếu hiện tượng cần phân tích bao gồm

Trang 7

các đối tượng vật lý hoặc hình ảnh, thì thiết bị thu thập dữ liệu có thể làcamera, máy quét đa phổ, hay một thiết bị khác Đối với những vấn đềkhác như bài toán kinh tế, có thể cần đến một loại hệ thu thập dữ liệu đặcthù để thu được một tập dữ liệu phù hợp.

Trong quá trình tiền xử lý dữ liệu chúng ta thường sử dụng một phépbiến đổi (hay một hàm) nào đó để chuyển đổi dạng quan sát được thànhmột dạng điện tử hoặc chuyển đổi một tập hợp dữ liệu rời rạc thành dạngtoán học sao cho dữ liệu này phù hợp hơn với việc phân tích của máy tính.Kết quả của quá trình chuyển đổi này sẽ cho một véc tơ dạng, và véc tơnày được xem như một điểm trong không gian dạng mẫu

Chẳng hạn nếu ta quét một ảnh bằng một máy quét đa phổ 12 kênh,

ta sẽ thu được một điểm ảnh đơn lẻ với 12 giá trị, mỗi giá trị tương ứngvới một phản ứng phổ riêng biệt Còn nếu ảnh được xử lý như một ảnhmàu, thì quá trình tiền xử lý sẽ cho một điểm ảnh với 3 giá trị thành phầnmàu chính, lần lượt tương ứng là: đỏ, xanh lá cây, xanh da trời

Mỗi giá trị thành phần dải phổ có thể được xem như một biến ngẫunhiên trong không gian n chiều của một không gian dạng mẫu trong đómỗi thành phần dải phổ được cho tương ứng với một chiều Mỗi dạng khi

đó xuất hiện như một điểm trong không gian dạng mẫu Rn nó là một véc

tơ gồm n thành phần kí hiệu là xi và có biểu diễn như sau:

Trang 8

Mục đích của việc trích chọn đặc trưng là quá trình làm giảm số chiều.

Nó chuyển đổi dữ liệu gốc thành một dạng phù hợp gọi là véc tơ dạng mẫu

và sẽ được sử dụng như đầu vào cho quá trình xử lý đưa ra quyết địnhphân loại Như vậy kết quả của quá trình trích chọn đặc trưng sẽ cho cácvéc tơ đặc trưng:

xTi = (xi1, xi2, · · · , xir), i = 1, · · · , N ; với r < nMột véc tơ dạng mẫu được đặt trong không gian dạng mẫu như mộtđiểm, và các véc tơ dạng mẫu tập trung gần nhau trong không gian dạngmẫu sẽ tạo thành một lớp hay một cụm riêng biệt

Như vậy dữ liệu đầu vào cho quá trình xử lý để đưa ra quyết định phânloại là một tập hợp các véc tơ dạng mẫu Dữ liệu đầu ra của quá trình xử

lý sẽ đưa ra quyết định phân loại

Cả quá trình tiền xử lý và xử lý đưa ra quyết định thường được chọnlựa bởi người sử dụng Hàm quyết định được sử dụng có thể là tuyến tính,tuyến tính từng khúc, phi tuyến, hay một số loại hàm khác Trọng số đượcdùng trong quá trình xử lý đưa ra quyết định sẽ là các giá trị tính toándựa trên việc hoàn thiện các thông tin tiên nghiệm có trong tập các véc

tơ dạng mẫu Tập dữ liệu này sẽ được gọi là tập luyện, còn quá trình xử

lý trên được gọi là quá trình luyện Trong suốt quá trình luyện, các trọng

số sẽ được hiệu chỉnh tùy theo việc phân loại các véc tơ dạng mẫu của tậpluyện được thực hiện là đúng hay sai Quá trình luyện này sẽ được coi làhoàn thành khi các thông tin thu được cho phép hình thành một qui tắcphân loại có khả năng phân loại đúng tất cả các véc tơ dạng mẫu của tậpluyện Sau đó qui tắc phân loại được hình thành sẽ được sử dụng vào việcphân loại các dạng vào các lớp hay các cụm tương ứng của không giandạng mẫu Ta lưu ý là không nên tách rời hai công đoạn học và phân loạicủa một thủ tục nhận dạng với nhau Thông thường việc kết hợp một cáchhợp lý hai công đoạn nói trên sẽ tạo ra một thủ tục nhận dạng hiệu quảhơn

Một tập luyện S sẽ được gọi là tập luyện có hướng dẫn nếu các véc tơdạng mẫu của nó được cho như sau:

xlik

Trang 9

trong đó l là chỉ số của lớp dạng, i là chỉ số véc tơ dạng mẫu thứ i củalớp thứ l: ωl; k là thành phần thứ k của vectơ dạng mẫu n chiều K, Nl, ntương ứng là số lớp dạng, số véc tơ dạng mẫu của lớp thứ l, và số chiềucủa vectơ dạng mẫu.

Các véc tơ dạng mẫu thuộc cùng một lớp dạng do có cùng một số thuộctính chung sẽ tạo thành một cụm trong một miền nhất định của khônggian dạng mẫu

Trong trường hợp không gian dạng mẫu là hai chiều thì bài toán phânloại thực chất là tìm một mặt phân biệt trong không gian dạng mẫu saocho nó có khả năng phân loại đúng tất cả các véc tơ dạng mẫu của tậpluyện Sau đó ta mong muốn có thể sử dụng mặt phân biệt này để phânloại các véc tơ dạng mẫu bất kỳ nếu xét theo một độ đo sự gần gũi nào đóchúng là giống nhau với các véc tơ dạng mẫu của tập luyện đã cho trước.Như vậy quá trình nhận dạng thực chất sẽ là quá trình phân chia khônggian dạng mẫu thành một số hữu hạn các miền rời nhau còn được gọi làcác miền quyết định và việc phân loại sẽ phụ thuộc vào véc tơ dạng mẫuđược xét rơi vào miền quyết định nào của không gian dạng mẫu Cách tiếpcận này nói chung cũng giống như cách tiếp cận của lý thuyết quyết định.Điều cơ bản của cách tiếp cận này là cần có một biểu diễn đầy đủ tập dữliệu dưới dạng các véc tơ dạng mẫu Khi đó một thủ tục nhận dạng thườngđược xây dựng theo một trong hai phương pháp là phương pháp phân tíchcấu trúc cú pháp và phương pháp tiếp cận theo lý thuyết quyết định

Ta lưu ý rằng có một số bài toán cách tiếp cận cú pháp hoặc cấu trúc

là phù hợp, trong khi một số bài toán cách tiếp cận lý thuyết quyết địnhlại phù hợp hơn Việc chọn lựa cách tiếp cận nào phụ thuộc vào tập các dữliệu có trong bài toán Nhiều bài toán có thông tin cấu trúc phong phú cóthể sử dụng phương pháp cấu trúc nhằm thu được một thủ tục nhận dạnghiệu quả Nhưng trong các bài toán mà các thông tin cú pháp hay cấu trúckhông đóng vai trò quan trọng thì nên sử dụng cách tiếp cận lý thuyếtquyết định Tuy nhiên, có nhiều ứng dụng cần kết hợp cả hai phương phápnêu trên Một sự kết hợp hợp lí của hai cách tiếp cận này có thể cho kếtquả rất hiệu quả đối với một bài toán nhận dạng cụ thể

1.3 Một số ứng dụng của nhận dạng:

Công nghệ nhận dạng mẫu có thể được áp dụng cho nhiều loại bàitoán thực tế khác nhau, trong đó ta có thể nêu một số ứng dụng như sau:

Trang 10

1.3.1 Nhận dạng giọng nói

Nhận dạng giọng nói có rất nhiều ứng dụng Ví dụ như, trong công tácđiều tra tội phạm, việc nhận dạng được chính xác giọng nói của các đốitượng để phân tích xem họ có phải đối tượng nghi vấn không hay không.Chúng ta có thể mô tả cơ chế hoạt động của một hệ thống nhận dạnggiọng nói theo sơ đồ sau:

Hình 1.1: Cơ chế của hệ thống nhận dạng giọng nói

Các tín hiệu biến đổi từ các ngôn từ, đầu tiên được lọc và lấy mẫu

Trang 11

thông qua các bộ lọc thông âm điệu với tần số trung tâm từ 200Hz đến7500Hz Một vài tham số riêng, chẳng hạn như những đỉnh cục bộ phổ,năng lượng giọng nói, và những biểu diễn toàn bộ mẫu của phổ, đượcchiết xuất cho sự phân mảnh và nhận dạng âm vị Lỗi xuất hiện trongquá trình phân mảnh và nhận dạng âm vị được sửa bằng cách cho trướccác quy tắc sửa lỗi âm vị, sau đó các tính toán tương đương được thựchiện và các tương thích nhất được chọn cho giải pháp.

1.3.2 Nhận dạng chữ viết tay

Đây là một trong những ứng dụng chính của việc phân loại Bài toánnày đã được nghiên cứu trong một thời gian dài Tuy nhiên, có nhiều cáchkhác nhau để viết một kí tự nên tỉ lệ nhận dạng đúng chữ viết tay cònthấp và vì thế các phương pháp nhận dạng chữ viết tay còn chưa được đưavào ứng dụng thực tế

Nhiều cách tiếp cận đã được đề xuất trong việc nhận dạng chữ viết tay.Cho đến bây giờ, đã có khoảng 121 kí tự khác nhau, bao gồm 52 chữ inhoa và chữ thường, 10 chữ số và những biểu tượng khác đã được cho là cóthể nhận biết được

Máy nhận dạng còn có khả năng nhận dạng các kí tự phức tạp hơn nhưchữ Trung Hoa, hay các biểu tượng khác vẫn là đề tài đang được nghiêncứu

1.3.3 Dự báo thời tiết

Trong việc dự báo thời tiết, bản đồ áp suất khí quyển trên một khu vựcnào đó là dữ liệu quan trọng cho việc nghiên cứu Từ những kinh nghiệmtrước đó và hiểu biết chuyên môn, những mẫu khác nhau có thể được định

rõ trên các bộ bản đồ dữ liệu Khi đó bài toán dự báo thời tiết trở thànhphân loại các mẫu áp suất khí quyển đang tồn tại và liên kết chúng vớicác điều kiện thời tiết khác nhau Việc phân loại tự động và bán tự độngbằng máy tính đã trở nên rất cần thiết khi mà số lượng bản đồ tăng lên.Hai phương pháp thường dùng để phân loại biểu đồ đường đẳng áp

là phương pháp phân tích tương quan và phương pháp phân tích thànhphần chính (Kahunen-Loeve) Cả hai phương pháp này sẽ tìm ra nhữngđặc trưng tổng thể Ứng dụng của phương pháp cú pháp cho bài toán dựbáo thời tiết, chẳng hạn như sử dụng chuỗi hoặc cây biểu diễn cho biểu đồđường đẳng áp, cũng đang được nghiên cứu

Trang 12

1.3.4 Phân tích điện tâm đồ để chẩn đoán hoạt động

1.3.5 Phân tích y học bằng chụp tia X-quang

Việc phát hiện, chẩn đoán sớm và chính xác bệnh có thể cứu chữa kịpthời cho bệnh nhân Ví dụ về bệnh ho dị ứng do hít phải nhiều bụi củacông nhân mỏ than đá, nguyên nhân do liên tục hít phải khí bụi bẩn vàđộc hại Triệu chứng chính là sự giảm động mạch phổi Chẩn đoán dựatrên việc phân biệt chính xác các vết mờ đục rất nhỏ của các mẫu khácnhau với các động mạch phổi thông thường Các vết mờ đục này xuất hiệnđây đó, đôi khi nằm trong kẽ xương sườn Những vết này xuất hiện trongkhoảng không của xương sườn, và bị che phủ bởi bóng của xương và cácđộng mạch phổi chính, khiến cho rất khó để nhận ra Kỹ thuật nhận dạng

sẽ là hữu ích khi được áp dụng cho việc giải quyết dạng bài toán này

Trang 13

1.4 Học có hướng dẫn và không có hướng

dẫn

Ta đã thấy ở trên một thủ tục nhận dạng sẽ bao gồm hai công đoạn

là học và phân loại, trong đó công đoạn học (hay còn gọi là luyện) là quátrình hình thành tri thức phân loại dựa trên các thông tin đã cho trước

ở tập luyện còn công đoạn phân loại là quá trình đưa ra quyết định phânloại một dạng có véc tơ dạng mẫu bất kỳ vào một trong các lớp hay cáccụm đã được xác định Tùy theo cấu trúc của tập luyện cho trước ta phânbiệt hai quá trình học sau:

Quá trình học có hướng dẫn là quá trình hình thành tri thức phân loạithông qua việc xử lý một tập luyện bao gồm các véc tơ dạng mẫu cùng vớichỉ số lớp tương ứng của nó đều đã cho trước Khi đó, thủ tục nhận dạngđược xây dựng sẽ lần lượt xử lý các véc tơ dạng mẫu của tập luyện và mỗikhi tri thức phân loại đã hình thành được sử dụng để phân loại cho véc

tơ dạng mẫu mới được xét của tập luyện cho kết quả không đúng với chỉ

số lớp cho trước của nó thì thủ tục phân loại sẽ thực hiện một hiệu chỉnhcác tham số của nó và quá trình học này sẽ chỉ kết thúc khi: với tham số

đã hiệu chỉnh, thủ tục phân loại đã thực hiện phân loại đúng toàn bộ tậpluyện cho trước Tập luyện bao gồm các véc tơ dạng mẫu cùng với chỉ sốlớp tương ứng của nó đều đã cho trước như xét trên sẽ được gọi là một tậpluyện có hướng dẫn Rõ ràng là nếu tập luyện có hướng dẫn có kích thước

đủ lớn và có tính đại diện cho lớp dạng của không gian dạng thì có cơ sở

để tin là thủ tục phân loại đã học được các tri thức phân loại cần thiết

và sẽ có khả năng thực hiện phân loại chính xác không chỉ với các véc tơdạng mẫu của tập luyện mà đối với cả một véc tơ dạng mới bất kỳ

Quá trình học không có hướng dẫn là quá trình hình thành tri thứcphân loại cho một thủ tục nhận dạng nhờ kết quả xử lý một tập luyện chỉbao gồm các véc tơ dạng mẫu mà không cho trước các chỉ số lớp tươngứng của chúng Tập luyện này được gọi là tập luyện không có hướng dẫn

và quá trình học trong trường hợp này thực chất là quá trình xử lý tậpluyện nhằm hình thành trong tập luyện một cấu trúc cụm các véc tơ dạngmẫu theo nguyên tắc: các véc tơ dạng mẫu ở cùng một cụm sẽ là tương tựnhau (hay là "gần nhau") còn các véc tơ dạng mẫu ở các cụm khác nhau

sẽ không tương tự nhau (hay là "không gần nhau") khi ta xét theo một độ

đo gần gũi nào đó được chọn trước

Vấn đề chính trong quá trình này là việc xác định một độ đo gẫn gũi giữacác véc tơ dạng mẫu của tập luyện nhằm chọn ra tiêu chuẩn phân loại tốtnhất, đồng thời dựa vào tiêu chuẩn đánh giá về độ đo gần gũi này để xây

Trang 14

dựng các thuật toán nhằm phân cụm các véc tơ dạng mẫu của tập luyện.Trong đề tài này, chúng tôi nghiên cứu về Các thuật toán phân tíchphân cụm và ứng dụng, nghĩa là tìm hiểu một số các bài toán phân loạitrong trường hợp học không có hướng dẫn (còn gọi là phân cụm) Dựa trên

cơ sở nghiên cứu các độ đo gần gũi chúng tôi sẽ phân tích một số thuậttoán phân cụm khác nhau trong trường hợp số lớp chưa biết và số lớp đãbiết Đồng thời, dựa trên một số yêu cầu thực tiễn trong phân cụm dữ liệunhư tính mở rộng (tức là thuật toán có thể áp dụng với tập dữ liệu lớn),tính thích nghi (thích nghi với tập dữ liệu có hình dạng bất kì),v.v chúngtôi sẽ giới thiệu một thuật toán cải biên K*-means có khả năng phân cụmrất linh động và hiệu quả

Trang 15

Phân tích phân cụm và

các thuật toán phân cụm

2.1 Phân tích phân cụm

2.1.1 Khái niệm phân cụm

Phân cụm là phương pháp phân loại một tập dữ liệu (hay còn gọi làtập luyện) trong đó quá trình tạo ra các cụm không sử dụng bất kỳ kiếnthức tiên nghiệm nào về chỉ số lớp của các cá thể thuộc tập luyện

Khi cho một tập luyện S gồm N phần tử:

S = {xi|xi ∈ Rn, i = 1, · · · , N }Thì quá trình phân cụm có thể được phát biểu như sau:

Tìm các miền con: S1, S2· · · , SK của tập luyện S sao cho mỗi xi, i=1, ,N

sẽ chỉ thuộc vào duy nhất một miền con xác định trên, nghĩa là:

S1 ∪ S2 ∪ · · · ∪ SK = S

Si ∩ Sj = ∅ với ∀i 6= jKhi đó ta nói tập luyện có N phần tử trên đã được phân thành K cụmkhác nhau Đồng thời, các véc tơ thuộc cùng một cụm Si thì "gần nhau"hơn, còn các véc tơ thuộc các cụm khác nhau thì không "gần nhau", trong

đó tiêu chuẩn độ đo sự gần gũi giữa các véc tơ của các cụm sẽ được lựa

Trang 16

chọn thích hợp với kiểu dáng hình thành của tập luyện cũng như với cácthành phần được xác định (hay còn gọi là các biến) của các véc tơ dạngmẫu trong tập luyện.

Không giống như phân lớp, phân cụm không đòi hỏi phải cho trước cácchỉ số lớp của các véc tơ dạng mẫu của tập luyện, cũng vì đặc điểm nàynên phân cụm còn có thể được sử dụng như một bước tiền xử lí cho cácthuật toán phân loại

Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con người.Ngay từ nhỏ, con người đã học cách làm thế nào để phân biệt được giữamèo và chó, giữa động vật và thực vật và liên tục đưa vào sơ đồ phân loạitrong tiềm thức của mình Phân cụm được ứng dụng rộng rãi trong nhiềulĩnh vực, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lí ảnh, nghiên cứuthị trường, địa lí, địa chất, y học, Phân cụm có thể được sử dụng nhưmột công cụ độc lập giúp hình thành các đặc trưng của mỗi cụm trong sựphân bố của tập luyện và từ đó tập trung vào một tập riêng biệt của cáccụm để giúp cho việc phân tích đạt kết quả

Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần chophân cụm đều có chứa nhiễu do quá trình thu thập thiếu chính xác hoặckhông đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữliệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạnphân tích cụm dữ liệu Nhiễu ở đây được hiểu là các dữ liệu không chínhxác, không tường minh, hoặc thiếu thông tin về một số thuộc tính Mộttrong những kỹ thuật xử lí nhiễu phổ biến là việc thay thế giá trị các thuộctính của dữ liệu bị nhiễu bằng giá trị thuộc tính tương ứng Ngoài ra, dòtìm ra phần tử ngoại lai cũng là một trong những hướng nghiên cứu quantrọng trong phân cụm, chức năng chính của nó là xác định một nhóm nhỏcác dữ liệu không tuân theo các mô hình của tập dữ liệu đang được xétnhằm tránh sự ảnh hưởng của chúng tới kết quả phân cụm

Mục tiêu của phân cụm là xác định được bản chất của cấu trúc cụmtrong tập luyện không có hướng dẫn Để thực hiện được việc này cần phântích bài toán thực tế nhằm tìm ra các tiêu chuẩn cho việc tạo thành cáccụm tốt theo một ý nghĩa nào đó

Theo các nghiên cứu gần đây, chưa có một phương pháp phân cụm tổngquát nào có thể giải quyết trọn vẹn cho tất cả tập dữ liệu Hơn nữa, mỗiphương pháp phân cụm cần có cách thức biểu diễn cấu trúc khác nhau, vàvới mỗi cách thức biểu diễn khác nhau sẽ tương ứng với một thuật toánphân cụm phù hợp Vì vậy, phân cụm vẫn đang là một vấn đề khó và mở,

vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp vớinhiều tập dữ liệu khác nhau nhất là đối với các tập dữ liệu dạng hỗn hợp

Trang 17

2.1.2 Ứng dụng của phân cụm

Phân cụm có nhiều ứng dụng trong nhiều lĩnh vực như:

• Thương mại: Tìm kiếm nhóm các khách hàng quan trọng có đặc trưngtương đồng và những đặc tả họ từ những bản ghi mua bán trong cácmẫu dữ liệu

• Sinh học: Phân loại các gen với các chức năng tương đồng và thu đượccác cấu trúc trong mẫu

• Thư viện: Phân loại các cụm sách có nội dung và ý nghĩa tương đồngnhau để cung cấp cho độc giả

• Bảo hiểm: Nhận dạng các nhóm đối tượng tham gia bảo hiểm có chiphi bồi thường cao, hoặc ưu tiên đặc biệt

• Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địalí, nhằm cung cấp thông tin cho quy hoạch đô thị

• Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằmcung cấp thông tin cho nhận dạng vùng nguy hiểm

2.1.3 Các yêu cầu của phân tích phân cụm

Trong lý thuyết nhận dạng, các nghiên cứu về phân cụm hiện nay vẫn

là một thách thức vì những ứng dụng tiềm năng của phân cụm như đã nêutrên, bản thân nó lại đặt ra những vấn đề cần được giải quyết Sau đây lànhững yêu cầu cơ bản của phân tích phân cụm:

• Có khả năng mở rộng: Nhiều thuật toán phân cụm làm việc tốt vớinhững tập dữ liệu nhỏ chứa ít phần tử, tuy nhiên, việc triển khai thuậttoán này với một tập dữ liệu lớn có thể chứa đến hàng triệu phần tử

sẽ là một bài toán mới Sở dĩ như vậy vì thuật toán phân cụm có thể

sẽ không cho kết quả mong đợi như đã thu được khi xét trên một tập

dữ liệu có kích thước nhỏ nói trên Rõ ràng bài toán đặt ra là làm thếnào chúng ta có thể phát triển các thuật toán phân cụm có khả năng

mở rộng cao đối với tập mẫu dữ liệu lớn

• Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiềuthuật toán được thiết kế cho việc phân cụm với tập mẫu kiểu số Tuynhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu

Trang 18

dữ liệu khác nhau, như kiểu nhị phân, kiểu tường minh (định không thứ tự), hay dạng hỗn hợp nhiều kiểu dữ liệu.

danh-• Khám phá các cụm với hình dạng bất kì: Nhiều thuật toán phâncụm xác định các cụm dựa trên các phép đo khoảng cách Euclide vàkhoảng cách Mahalanobis Các thuật toán dựa trên các phép đo nhưvậy hướng tới việc tìm kiếm các cụm hình cầu với mật độ và kích cỡtương tự nhau Tuy nhiên, một cụm có thể có bất cứ một hình dạngnào Do đó, việc phát triển các thuật toán có thể khám phá ra các cụm

• Khả năng thích nghi với các dữ liệu nhiễu: Hầu hết những tập

dữ liệu đều chứa đựng những phần tử ngoại lai, dữ liệu lỗi, chưa biếtthuộc tính hoặc sai Một số thuật toán phân cụm nhạy cảm với dữ liệunhư vậy và có thể dẫn đến chất lượng phân cụm thấp

• Ít nhạy cảm với thứ tự đầu vào của các tập dữ liệu: Một sốthuật toán phân cụm nhạy cảm với thứ tự đầu vào của dữ liệu, ví dụnhư với cùng một tập dữ liệu, khi được đưa vào với các thứ tự khácnhau thì có thể sinh ra các cụm khác nhau Do đó, việc quan trọng làphát triển một thuật toán ít nhạy cảm với thứ tự đầu vào của các mẫu

dữ liệu

• Số chiều lớn: Một tập dữ liệu có thể chứa các véc tơ dạng mẫu với

số chiều hoặc các thuộc tính lớn Nhiều thuật toán phân cụm áp dụngtốt cho các mẫu dạng có số chiều thấp, bao gồm chỉ hai đến ba chiều.Người ta đánh giá việc phân cụm là có chất lượng nếu nó áp dụng đượccho các mẫu dạng từ ba chiều trở lên Đây là một sự thách thức vớicác đối tượng dữ liệu cụm trong không gian với số chiều lớn, đặc biệtkhi xét những không gian với số chiều lớn nhưng có thể rất thưa

• Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể thực hiệnphân cụm dưới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là

Trang 19

đi tìm những nhóm tập dữ liệu có trạng thái phân cụm tốt và thỏamãn các ràng buộc.

• Dễ hiểu và dễ sử dụng: Người sử dụng thường chờ đợi những kếtquả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, một phâncụm được đề xuất sẽ cần được giải thích rõ ràng ý nghĩa và ứng dụngcủa nó

2.2 Các độ đo thường được sử dụng trong

phân tích phân cụm

2.2.1 Độ đo sự gần gũi

Từ định nghĩa sự phân cụm, một cụm sẽ bao gồm các véc tơ dạng mẫu

xi của tập luyện sao cho các véc tơ dạng mẫu thuộc cùng một cụm sẽ giốngnhau càng nhiều càng tốt Vì vậy, chúng ta cần một độ đo sự gần gũi đánhgiá mức độ tương tự hoặc không tương tự giữa các mẫu này Chẳng hạnnếu kí hiệu ζ là độ đo không tương tự giữa hai véc tơ dạng mẫu xi và xj,thì độ đo này có tính chất:

ζ(xi, xi) = 0ζ(xi, xj) 6= 0 ∀xi 6= xjCác độ đo sự gần gũi thường được đưa ra dưới dạng số để chỉ mức độgần gũi giữa các mẫu trong một cụm, hoặc giữa một mẫu và một cụm cácmẫu, hoặc giữa hai cụm mẫu

1 Độ đo không tương tự:

• Độ đo khoảng cách Euclide:

Khoảng cách Euclide là độ đo không tương tự đơn giản nhất

và thường sử dụng nhiều nhất, nó được kí hiệu là d(xi, xj) và xácđịnh như sau:

Trang 20

trong đó: xi, xj ∈ Rn.

Khoảng cách này sẽ trở thành độ đo không tương tự nếu cácbiến thành phần của véc tơ xi, xj là có cùng thứ nguyên, nếu không

ta cần sử dụng các hiệu chỉnh là các trọng số tương ứng Khi đó, ta

có một độ đo không tương tự có trọng số được xác định như sau:

C Khoảng cách Mahalanobis được sử dụng khi các biến (hay cácthành phần) của véc tơ dạng mẫu không có cùng thứ nguyên

2 Độ đo tương tự Tanimoto:

Tanimoto đưa ra một tỉ số được biết như là độ đo Tanimoto:

biểu diễn số các thuộc tính có bởi xi, và xTjxj biểu diễn số thuộc tính

có bởi xj Mẫu số biểu diễn số thuộc tính cái mà có ở trong xi hoặc

xj nhưng không có ở trong cả hai Vậy độ đo Tanimoto biểu diễn tỉ sốgiữa số thuộc tính thuộc vào cả hai véc tơ xi và xj với số thuộc tínhchỉ có ở xi hoặc xj nhưng không có ở cả hai véc tơ dạng mẫu xi và xj

Trang 21

2.2.2 Khoảng cách giữa hai cụm (interset) và khoảng

và 2 trong [x1i] [x2j] ký hiệu cho các véctơ dạng mẫu thuộc cụm thứ nhất:

ω1 và cụm thứ hai: ω2 và N1, N2 tương ứng là số véctơ dạng mẫu của cụm

Trang 22

X

j=1

1N

Chú ý rằng, bằng thực nghiệm, phương sai của biến thành phần thứ k

trong tập của N véc tơ dạng được tính bởi:

Sau khi thực hiện quá trình rút gọn trên thì ta thu được công thức tính

khoảng cách nội cụm Dss xác định như sau:

Trang 23

2.3 Phân cụm trong trường hợp số lớp chưa

biết

2.3.1 Thuật toán sử dụng phương pháp trực quan

Trong trường hợp chưa biết số lớp, từ các véc tơ dạng mẫu đã cho trongtập luyện, ta có thể sử dụng các phương pháp phi thống kê để xây dựngthuật toán phân cụm

Điểm thiết yếu của thuật toán này là xác định các cụm bằng cách sửdụng độ đo khoảng cách:

Cụm đầu tiên có thể được chọn bất kỳ, giả sử nó có tâm cụm là z1 Khicụm đầu tiên được chọn, phân loại các véc tơ dạng mẫu vào cụm này nếukhoảng cách từ véc tơ dạng mẫu đó tới tâm cụm z1 là nhỏ hơn một ngưỡng

τ đã cho trước Nếu không thì tạo ra một cụm mới Mỗi khi có các véc tơdạng mẫu rơi vào trong một cụm thì giá trị tâm cụm và phương sai củacụm này sẽ được tính lại Lặp lại quá trình trên cho đến khi tất cả các véc

tơ dạng mẫu đã được phân hết vào các cụm

Thuật toán phân cụm sử dụng phương pháp trực quan:

Dựa trên cơ sở lí thuyết đã trình bày ở trên, chúng ta có thuật toán phâncụm trực quan sẽ được tiến hành theo các bước sau:

• Bước 1: Chọn một véc tơ dạng mẫu đầu tiên làm phần tử đại diện z1của cụm xuất phát, hay z1 = x1 còn được gọi là tâm cụm đầu tiên

• Bước 2: Chọn một véc tơ dạng mẫu tiếp theo xi và tính toán khoảngcách của nó tới tất cả các cụm hiện thời (đầu tiên thì chỉ có một cụm),khi đó có các trường hợp sau:

a xi thuộc cụm thứ w là ωw có tâm cụm zw nếu:

d(xi, zw) ≤ θτ 0 ≤ θ ≤ 1 (2.12)trong đó τ là tham số xác định độ thuộc của véc tơ dạng vào cụm thứ

i và giá trị của τ được thiết lập từ đầu bởi người thiết kế thủ tục phâncụm

b xi không thuộc cụm ωw nếu:

d(xi, zw) > τ (2.13)

c Không quyết định xi có thuộc cụm thứ w hay không nếu xi rơi vào

Trang 24

vùng trung gian, tức là:

θτ < d(xi, zw) ≤ τ

• Bước 3: Xét các trường hợp sau:

a Mỗi lần có một giá trị mới xi được phân vào cụm ωw, thuật toán sẽtính toán lại tâm zw(n + 1) và phương sai Cw(n + 1) của cụm ωw sauhiệu chỉnh này theo các công thức sau:

zw(n + 1) = 1

n + 1[nzw(n) + xi] (2.14)

Cw(n + 1) = 1

n + 1[nCw(n) + (xi− zw(n + 1))2] (2.15)trong đó n là số véc tơ dạng mẫu đã được phân vào cụm ωw và xi làvéc tơ dạng mẫu mới thứ n + 1 của nó, zw(n), Cw(n), tương ứng làtâm cụm và phương sai của cụm có n véctơ dạng mẫu

b Tạo ra một cụm mới zl nếu:

d(xi, zw) > τ ∀w (2.16)

• Bước 4: Lặp lại bước 2 và bước 3 cho đến khi tất cả các véc tơ dạngmẫu của tập luyện được phân vào các cụm Trong quá trình thực hiệnbước 4, có thể xảy ra các kết quả phân cụm ở bước lặp trước bị thayđổi hay một số véc tơ dạng mẫu sẽ được sắp xếp lại theo một trật tựkhác

• Bước 5: Quá trình luyện được coi như hoàn thành nếu tất cả các véc

tơ dạng mẫu xi không còn bị thay đổi về sự liên thuộc cụm trong quátrình phân cụm theo cách trên

Thuật toán này là đơn giản và hiệu quả, nó có những tính ưuviệt sau:

• Thuật toán này đòi hỏi nhu cầu tính toán tối thiểu

• Các véc tơ dạng mẫu được xử lí liên tiếp và không có nhu cầu bộ nhớlớn

• Thuật toán cho phép xác định số cụm dạng mà không cần thông tin

gì đặc biệt về số cụm

Mặt khác nó cũng có vài hạn chế khi dùng thuật toán như sau:

Trang 25

• Thuật toán này đòi hỏi các véc tơ dạng nếu thuộc cùng một cụm phải

có liên kết chặt chẽ với nhau và giữa các cụm vẫn có sự tách biệt khá

rõ ràng thì thuật toán mới cho một phân cụm như mong đợi

• Kết quả phân cụm theo thuật toán sẽ phụ thuộc vào thứ tự xử lí cácvéc tơ dạng mẫu của tập luyện cũng như vào việc chọn véc tơ dạngmẫu làm tâm cụm đầu tiên

• Cuối cùng, kết quả phân cụm còn phụ thuộc nhiều vào các giá trịngưỡng τ và θ được chọn trong thuật toán

2.3.2 Thuật toán Batchelor và Wilkins

Batchelor và Wilkins đã đề xuất một phương pháp trực quan khác choviệc phân cụm một tập dữ liệu và phương pháp này còn được gọi là thuậttoán cực đại khoảng cách, thuật toán này có thể mô tả ngắn gọn theo cácbước sau:

• Bước 1: Chọn x1 làm tâm cụm đầu tiên z1 hay z1 = x1

• Bước 2: Xác định véc tơ dạng mẫu xa nhất so với x1 và chọn véc tơdạng mẫu này làm tâm của cụm thứ hai z2

• Bước 3: Tính khoảng cách từ các véc tơ dạng mẫu còn lại của tập luyệnđến các tâm cụm vừa hình thành là z1 và z2

• Bước 4: Tìm min(d(xi, z1), d(xi, z2)), với xi là các véc tơ dạng mẫu củatập luyện Lưu lại các giá trị này

• Bước 5: Tìm max

i [min(d(xi, z1), d(xi, z2))]

• Bước 6: Nếu khoảng cách max này lớn hơn một phần xác định củakhoảng cách giữa tâm của hai cụm: d(z1, z2) thì véc tơ dạng mẫu cógiá trị khoảng cách tương ứng vừa đạt giá trị cực đại này được chọnlàm tâm của cụm mới, z3 Trường hợp ngược lại thì sẽ dừng thuật toán

• Bước 7: Lặp lại các Bước 3, Bước 4, Bước 5 và Bước 6, sau khi đã xácđịnh được ba tâm cụm, xác định xem có cần tìm thêm tâm cụm mớinữa không, nếu không thì sẽ dừng và kết thúc thuật toán Nếu cầntâm cụm mới thì quy về Bước 3, Bước 4, Bước 5 và Bước 6 cho đếnkhi dừng hẳn thuật toán Nếu khoảng cách này lớn hơn một phần xácđịnh của khoảng cách giữa các tâm cụm thì mẫu đó sẽ tương ứng vớimột cụm mới Nếu không, dừng thuật toán

Trang 26

• Bước 8: Phân cụm các véc tơ dạng mẫu mới về cụm có tâm là zi gần

nó nhất

Ví dụ áp dụng thuật toán Batchelor và Wilkins:

Cho 10 véc tơ dạng mẫu hai chiều như sau:

(0, 0)T (2, 8)T (1, 2)T (1, 1)T (5, 3)T(3, 9)T (6, 2)T (6, 3)T (6, 4)T (7, 3)TTiến hành tuần tự các bước của thuật toán Bachelor và Wilkins vào bộ

Trang 27

• Bước 7: So sánh các khoảng cách d(xi, zk), với k = 1, 2, 3 để tìmmin

Trang 28

Hình 2.1: : Ví dụ minh họa cho thuật toán Batchelor và Wilkins

Trang 29

2.4 Phân cụm trong trường hợp đã biết số

lớp

2.4.1 Thuật toán ISODATA

ISODATA( Iterative Self Organizing Data Analysis Techniques A) làmột từ viết tắt cho các kĩ thuật lặp phân tích dữ liệu tự tổ chức Trongthuật toán này, ta qui ước sử dụng các tham số đầu vào như sau:

M = số cụm mong muốn

η = số lượng véc tơ dạng mẫu tối thiểu có trong một cụm

σs = giá trị cực đại cho phép của độ lệch chuẩn

δ = khoảng cách tối thiểu có thể chấp nhận được giữa các tâm cụm

L = số lượng lớn nhất các cặp tâm cụm được phép gộp lại với nhau

I = số bước lặp cho phép

Các giá trị này là giá trị đầu vào của thuật toán ISODATA được xác địnhtrước

Các bước của thuật toán ISODATA:

• Bước 1: Chọn một vài tâm cụm khởi tạo

• Bước 2: Phân loại véc dạng mẫu vào cụm có véc tơ tâm cụm đã đượcchọn trên sao cho đây là véc tơ tâm cụm gần nó nhất

• Bước 3: Tính toán lại các véc tơ tâm cụm sau khi đã hoàn thành Bước

2 đối với toàn bộ tập luyện

• Bước 4: Kiểm tra nếu bất kì cụm nào không đủ số véc tơ dạng mẫutối thiểu như đã chọn trước thì loại cụm đó

• Bước 5: Tính toán độ lệch chuẩn cho mỗi miền cụm và kiểm tra xem

nó có lớn hơn giá trị cho phép đã chọn trước không

Nếu có và nếu kiểm tra thấy giá trị trung bình khoảng cách của cácvéc tơ dạng mẫu trong miền cụm Si tới tâm cụm tương ứng là lớn hơntrung bình chung khoảng cách của các véc tơ mẫu dạng tới tâm cụmtương ứng, đồng thời số véc tơ dạng mẫu trong cụm Si lớn hơn hai lần

số véc tơ dạng mẫu tối thiểu cần có trong một cụm thì tách cụm Sinày làm hai cụm mới

Trang 30

• Bước 6: Tính các khoảng cách giữa tất cả các cặp tâm cụm Nếu cómột vài cặp cụm có khoảng cách giữa hai tâm cụm nhỏ hơn khoảngcách tối thiểu cho phép đã được chỉ định trước thì lưu lại, và trong sốcác cặp cụm này, cặp nào có khoảng cách giữa hai tâm cụm nhỏ nhấtthì sẽ được kết hợp thành một cụm.

Ta ký hiệu :

x = các véc tơ dạng mẫu

Si = miền cụm thứ i

zi = tâm cụm thứ i

Ni = số véc tơ dạng mẫu trong Si

Nc = số tâm cụm được chỉ định trước một cách tùy ý

N = tổng số véc tơ dạng mẫu của tập luyện

Di = trung bình khoảng cách của các véc tơ dạng mẫu tới tâm cụm trongmiền cụm Si

D = trung bình chung khoảng cách các véc tơ dạng mẫu tới các tâm cụmhiện thời tương ứng

zil, zjl = các tâm cụm được gộp

Nil, Njl = số các véc tơ dạng mẫu trong các cụm có tâm tương ứng zil, zjlToàn bộ quá trình này có thể được mô tả bằng một sơ đồ khối như hình

vẽ sau:

Ngày đăng: 18/06/2016, 09:16

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Cơ chế của hệ thống nhận dạng giọng nói - Các thuật toán phân tích phân cụm và ứng dụng
Hình 1.1 Cơ chế của hệ thống nhận dạng giọng nói (Trang 10)
Hình 2.1: : Ví dụ minh họa cho thuật toán Batchelor và Wilkins - Các thuật toán phân tích phân cụm và ứng dụng
Hình 2.1 : Ví dụ minh họa cho thuật toán Batchelor và Wilkins (Trang 28)
Hình 2.2: Sơ đồ thuật toán ISODATA - Các thuật toán phân tích phân cụm và ứng dụng
Hình 2.2 Sơ đồ thuật toán ISODATA (Trang 34)
Hình 2.3: Kết quả thuật toán K-means khi chọn: a) K=1 ;b) K=2; c) K=3 - Các thuật toán phân tích phân cụm và ứng dụng
Hình 2.3 Kết quả thuật toán K-means khi chọn: a) K=1 ;b) K=2; c) K=3 (Trang 44)
Hình 2.4: Ví dụ thứ nhất với tập luyện gồm 1000 véc tơ dạng mẫu - Các thuật toán phân tích phân cụm và ứng dụng
Hình 2.4 Ví dụ thứ nhất với tập luyện gồm 1000 véc tơ dạng mẫu (Trang 53)
Hình 2.5: Ví dụ thứ hai với tập luyện gồm 2000 véc tơ dạng mẫu - Các thuật toán phân tích phân cụm và ứng dụng
Hình 2.5 Ví dụ thứ hai với tập luyện gồm 2000 véc tơ dạng mẫu (Trang 55)
Hình 3.1: Trường hợp 1: Kết quả thuật toán với thông số đầu vào ban đầu - Các thuật toán phân tích phân cụm và ứng dụng
Hình 3.1 Trường hợp 1: Kết quả thuật toán với thông số đầu vào ban đầu (Trang 58)
Hình 3.3: Trường hợp 3: Kết quả thuật toán khi thay L=1 - Các thuật toán phân tích phân cụm và ứng dụng
Hình 3.3 Trường hợp 3: Kết quả thuật toán khi thay L=1 (Trang 60)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w