1. Trang chủ
  2. » Luận Văn - Báo Cáo

K-MEANS CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE

61 523 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 4,48 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự la một quá trình rất khó khăn, gặp phải nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản nếu được chiết

Trang 2

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT MÔN HỌC:KHAI THÁC DỮ LIỆU

DATAMINING

ĐỀ TÀI:ÌM HIỂU K-MEANS –CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE

Giảng viên hướng dẫn : PGS.TS Đỗ Phúc

Sinh viên thực hiện:Tạ Lê Thủy Tiên MHHV:CH1101144

Trang 3

ỜI MỞ ĐẦU



Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt Bên cạnh đó, việc tin học hóa một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ Hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý , trong đó có nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền CNTT thế giới hiện nay nói chung và Việt Nam nói riêng Khai phá dữ liệu đang được

áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công

ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn.

Em xin chân thành cảm ơn PGS.TS Đỗ Phúc – Giảng viên môn học Khai thác dữ liệu (Datamining) đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành cám ơn ban cố vấn học tập và ban quản trị chương trình đào tạo thạc sĩ Công nghệ thông tin qua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu tham khảo để em có thể hoàn thành môn học này.

Chân thành cám ơn!

Tạ Lê Thủy Tiên

Trang 4

PHẦN I: SƠ LƯỢC VỀ DATAMINNG

I. KHAI PHÁ DỮ LIỆU (DATAMING) LÀ GÌ?

1. Khai phá dữ liệu (DATAMINNG) là gì?

• Khai phá dữ liệu (Data Mining) có rất nhiều cách diễn đạt khác nhau nhưng về bản chất

đó la:

• Trích xuất thông tin có ích, chưa biết, tiềm ẩn một cách Tự động (Automated) trong khối

dữ liệukhổng lồ trong thực tếva thông tin mang tính dự đoán (Predictive)

• Phân tích dữ liệu bán tự động

• Giải thích dữ liệu trên các tập dữ liệu lớn

• Khai phá dữ liệu (Data mining) la một khái niệm ra đời vao những năm cuối của thập kỷ 80

Năm 1989, Fayyad, Piatestsky-Shapiro va Smyth đã dùng khái niệm Phát hiện tri thức trong cơ

sở dữ liệu (Knowledge Discovery in Database – KDD) để chỉ toan bộ quá trình phát hiện các tri

thức có ích từ các tập dữ liệu lớn Trong đó, khai phá dữ liệu la một bước đặc biệt trong toan bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu từ dữ liệu

Trang 5

• Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết Sau

đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp Bước tiếp theo la thu thập các

dữ liệu có liên quan va xử lý chúng thanh dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự la một quá trình rất khó khăn, gặp phải nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vao các tệp), quản lý các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toan bộ quá trình (nếu mô hình dữ liệu thay đổi),…

• Bước tiếp theo la chọn thuật toán khai phá dữ liệu thích hợp va thực hiện việc khai phá dữ liệu

để tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường thì được biểu diễn dưới dạng các luật xếp loại, cây quyết định, phát sinh luật, biểu thức hồi quy,…)

• Khai phá dữ liệu - Data mining

• Khai phá dữ liệu - Data mining la một buớc của tiến trình KDDKnowledge discovery in

databases (KDD)Thuật ngữ tổng quát gồm các buớc như tiền xử lý, KPDL, hậu xử lý

4. Tiềm năng:

• Phân tích dữ liệu, hỗ trợ ra quyết định

• Phân tích va quản lý thị trường

• Quản lý va phân tích rủi ro

• Quản lý va phân tích các sai hỏng

• Tạo tập dữ liệu đầu vao

• Tiền xử lý/ lam sạch, mã hóa

• Rút gọn / chiều

• Chọn tác vụ Khai thác dữ liệu

• Chọn các thuật giải KTDL

Trang 6

2 Khai thac dữ liệu: Tìm kiếm tri thức

3. Hậu xử lý

• Đánh giá mẫu tìm được

• Biểu diễn tri thức

• Sử dụng các tri thức vừa khám phá

4 Mô hình:

III. CÁC KHÍA CẠNH

2

Trang 7

1. CSDL (quan hệ, hướng đối tượng, không gian,Text,

XML,Multi-media,Heterogeneous, WWW, …)

2. Tri thức (đặc trưng, gom cụm, kết hợp, …)

3. Kỹ thuật (Nhà kho dữ liệu (OLAP),máy học, thống kê, trực quan hóa,Mạng nơron và thuật giải GA …)

IV. CÁC ỨNG DỤNG

Tự động hóa việc dự doán các xu thế va hanh vi sẽ diễn ra trong tương lai: Data mining

tự động hóa quá trình tìm kiếm va trích xuất các tập thông tin có mối quan hệ hoặc tương quan trong một tập dữ liệu cực lớn

Một số công nghệ thường áp dụng trong data mining:

Mạng trí tuệ nhân tạo (Artificial neural networks): Đây la mô hình ma hệ thống cóthể tự học thông qua đao tạo với tập dữ liệu ban đầu, từ đó suy đoán ra các tập kếtquả từ tập dữ liệu ma nó khai thác

Cây quyết định (Decisions Trees): Một tập các decisions biểu diễn dưới dạng cây, các decisions nay tạo ra các luật cho việc phân loại tập dữ liệu Nôm na la, nếu tập thông tin A thõa mãn các luật B thì quyết định C

• Giải thuật di truyền (Generic Algorithms): Kỹ thuật nay sử dụng trong các quá

trình phối hợp, biến đổi, chọn lọc tự nhiên kế thừa từ khái niệm tiến hóa

Phương pháp ông hang xóm gần nhất (Nearest neighbor method): Đây la kỹ thuật phân loại từng bản ghi/thông tin trong tập dữ liệu dựa trên sự kết hợp của k records có độ giống nhau nhất trong tập dữ liệu quá khứ

• Nguyên tắc suy diễn (Rule induction): Kỹ thuật bóc tác dữ liệu dựa trên nguyên

tắc Nếu-Thì từ các tập dữ liệu thống

• Ứng dụng rất đa dạng va rộng tới, từ marketing, chống gian lận, giảm giá thanh

sản xuất, tăng doanh thu, phân tích hanh vi sử dung người dùng internet để target đúng nhu cầu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết định, nghiên cứu khoa học đến việc chống Khủng bố v.v

Trang 8

PHẦN II: PHÂN CỤM

1. Mục đích của phân cụm

La tìm ra bản chất bên trong các nhóm của dữ liệu Lam bước tiền xử lý cho các thuậttoán khác Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm(clusters) Tuy nhiên, không có tiêu chí nao la được xem la tốt nhất để đánh hiệu của củaphân tích phân cụm, điều nay phụ thuộc vao mục đích của phân cụm như: data reduction,

“natural clusters”, “useful” clusters, outlier detection

2. Các ứng dụng tiêu biểu của gom cụm:

• Marketing: Xác định các nhóm khách hang (khách hang tiềm năng, khách hang giá trị, phân loại

va dự đoán hanh vi khách hang,…) sử dụng sản phẩm hay dịch vụ của công ty để giúp công ty cóchiến lược kinh doanh hiệu quả hơn;

• Biology: Phận nhóm động vật va thực vật dựa vao các thuộc tính của chúng;

• Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…;

• Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm va các dịch vụ tai chính, dự

đoán xu hướng (trend) của khách hang, phát hiện gian lận tai chính (identifying frauds);

• WWW: Phân loại tai liệu (document classification); phân loại người dùng web (clustering

weblog);…

3. Thế nào là gom cụm tốt:

• Một phương pháp tốt sẽ tạo ra các cụm có chất lượng cao với:

Tương tự cao cho trong lớp (intra-class)

Tương tự thấp giữa các lớp (inter-class)

• Chất lượng của kết quả gom cụm phụ thuộc vao:

 ĐỘ đo tương tự sử dụng

 Cai đặt độ đo tương tự

• Chất lượng của phương pháp gom cụm cũng được đo bởi khả năng phát hiện vai

hay tất cả các mẫu bị che ( hiddenpatterns)

4. Các yêu cầu của gom cụm trong KPDL

• Có thể thay đổi quy mô (scalability)

• Khả năng lam việc các loại thuộc tính khác nhau

Trang 9

• Khám phá các cụm có hình dáng bất kỳ

• Các yêu cầu tối thiều cho tri thức lĩnh vực nhằm xác định các tham biến nhập

• Khả năng lam việc với nhiều va outliers

• Không nhạy cảm với thư tự các bản ghi nhập vao

• Có số chiều cao

• Hợp tác với các rang buộc do người dùng chỉ định

• Có thể diễn dịch va khả dụng

5. Tương tự và bất tương tự giữa hai đối tượng

Không có định nghĩa duy nhất về sự tương tự va bất tương tự giữa các đối tượng

dữ liệu Định nghĩa về tương tự va bất tượng tự giữa các đối tượng tùy thuộc vao

 Loại dữ liệu khảo sát

 Loại tương tự cần thiết

Tương tự /Bất tượng tự giữa đối tượng thường được

biểu diễn qua độ đo khoảng cách d(x,y)

Lý tưởng, mọi độ đo khoảng cách phải la một va phải thỏa các điều kiện sau:

6. Loại dữ liệu trong phân tích cụm

6.1 Các biến khoảng tỉ lệ :

 Các độ đo liên tục của các thang đo tuyến tính, thô

 Ví dụ: trọng lượng, chiều cao, tuổi

 Đơn vị đo có thể ảnh hưởng đến phân tích cụm

 Để tránh sự phụ thuộc vao đơn vị đo, cần chuẩn hoá dữ liệu

 Tính sai biệt tuyệt đối trung bình

với va Tính độ đo chuẩn

6.2 Biến nhị phân :

 Biến nhị phân chỉ có hai trạng thái la 0 hay 1

Bảng contingency table cho dữ liệu nhị phân:

Trang 10

Hệ số Jaccard coefficient (tương

tự không bất biến, nếu biến nhị phân la bất đối xứng):

Ví dụ: Sự bất tương tự giữa các biến nhị phân:

Bảng record bệnh nhân

 Tám thuộc tính trong đó

gender la thuộc tính đối xứng

 Các thuộc tính còn lại la bất đối xứng nhị phân

Gọi các trị Y va P được gán trị 1, va trị N được gán trị 0

 Tính khoảng cách giữa các bệnh nhân dựa vao các bất đối xứng dùng hệ số Jaccard:

o Phương pháp 2: dùng một số lượng lớn các biến nhị phân

o Tạo biến nhị phân mới cho từng trang thái định danh của

 Các biến thứ tự:

o Các biến thứ tự có thể la liên tục hay rời rạc

o Thứ tự của các trị la quan trọng, ví dụ hạng

Object j

Trang 11

Thay thế xif bởi hạng của chúng

Ánh xạ phạm vi của từng biến vao

đoạn [0, 1] bằng cách thay thế đối tượng thứ i trong biến thứ f bởi

Tính sự khác nhau dùng các phương pháp cho biến tỉ lệ theo khoảng

 Các biến tỉ lệ:

o Độ đo dương trên thang phi tuyến, xấp xỉ thang đo mũ

o Ví dụ :Ae Bt hay Ae -Bt

6.4 Các biến có kiểu hổn hợp :

 CSDL Có thể chứa cả sáu loại biến

 Có thể dùng công thức được gán trọng để kết hợp các hiệu quả:

 Với:

Đóng góp của biến f vào khoảng cách d(i,j):

Trang 12

Nếu f dựa trên khoảng: dùng khoảng cách được chuẩn hoá

Nếu f la thứ tự hay tỉ số được tỉ lệ theo:Tính hạng rif va

xử lý zif theo tỉ lệ khoảng

dữ liệu được thu gom từ World-Wide Web

 Các độ đo tương tự va bất tương tự thường hoan toan khác nhau ứng với các loại dữ liệu trên

6.6 Các phương pháp gom cụm (clustering) chính yếu:

 Phương pháp phân cấp

 Phương pháp dựa trên mật độ

 Phương pháp dựa trên mô hình

 Phương pháp dựa trên lưới

 Phương pháp phân hoạch:

o Tạo một phân hoạch của CSDL D chứa n đối tượng thanh tập gồm k

o Tiêu chuẩn suy đoán chất lượng phân hoạch

o Tối ưu toan cục: liệt kê theo lối vét cạn tất cả các phân hoạch

II. PHƯƠNG PHÁP GOM CỤM K-MEANS:

1. Giới thiệu về thuật toán k-means:

• K-means la thuật toán gom cụm theo phương pháp phân hoạch va đã được sử

dụng rộng rãi Cho tập các đối tượng

• Mục tiêu gom cụm hay phân mảnh la chia tập đối tượng nay thanh nhiều nhóm

hay “cụm” sao cho các đối tượng trong một cụm cókhuynh hướng tương tự nhau hơn so với đối tượng khác nhóm Nói cách khác, các thuật toán gom cụm đặt các điểm tương tự trong cùng một cụm trong khi các điểm không tương tự đặt trong nhóm khác

• Lưu ý, ngược với các tác vụ có giám sát như hồi qui hay phân lớp, ở đó có khái

niệm giá trị mục tiêu hay nhãn lớp, các đối tượng la đầu vao cho một thủ tục gom

Trang 13

cụm không cần một mục tiêu Vì vậy, gom cụm thường được xem la học không

có giám sát Do không cần dữ liệu nhãn, các thuật toán không giám sát thích hợp với nhiều ứng dụng không có dữ liệu được gán nhãn Các tác vụ không giám sát như gom cụm thường được dùng để khám phá va mô tả tập dữ liệu trước khi thực hiện công việc học có giám sát Do gom cụm không dùng các nhãn lớp, khái niệm

về độ tương tự phải được định nghĩa dựa trên các thuộc tính của đối tượng

• Định nghĩa về độ tương tự va phương thức ma ở đó các điểm được gom cụm khác

nhau dựa trên thuật toán gom cụm được áp dụng Các thuật toán gom cụm khác nhau thích hợp với các kiểu khác nhau về tập dữ liệu va các mục tiêu khác nhau

Vì vậy thuật toán gom cụm “tốt nhất” để sử dụng tùy thuộc vao ứng dụng

Thuật toán k-means la thuật toán gom cụm lặp đơn giản Nó phân mảnh tập dữ

liệu cho trước thanh k cụm, giá trị k do người dùng xác định

• Thuật toán dễ thực hiện, thi hanh nhanh, dễ thích nghi va phổ biến trong thực tế

Đây la một trong những thuật toán kinh điển trong khai thác dữ liệu

K-means được nhiều nha nghiên cứu khám phá thông qua nhiều cách khác nhau,

đáng chú ý nhất la Lloyd (1957, 1982), Forgey (1965), Friedman va Rubin (1967)

va McQueen (1967) Jain va Dubes mô tả lịch sử k-means theo nhiều biến thể Gray va Neuhoff cung cấp nền tảng cho k-means diễn ra trong ngữ cảnh lớn hơn

trên các thuật toán leo đồi [7]

2. Mô tả thật toán k-means:

2.1 Sơ đồ khối:

2.2 Thuật toán K-Means thực hiện qua các bước chính sau:

 Bước1: Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm

 Bước2: Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)

 Bước3: Nhóm các đối tượng vao nhóm gần nhất

 Bước4:.Xác định lại tâm mới cho các nhóm

 Bước5:.Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nao của các đối tượng

2.3 Ví dụ minh họa thuật toán K-Mean:

Trang 14

Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại thuộc được biểu diễn bởi 2 đặc trưng

X va Y như sau Mục đích của ta la nhóm các thuốc đã cho vao 2 nhóm (K=2) dựa vao các đặc trưng của chúng

Bước 1.Khởi tạo tâm (centroid) cho 2 nhóm Giả sử ta chọn A la tâm của nhóm

thứ nhất (tọa độ tâm nhóm thứ nhất c1(1,1)) va B la tâm của nhóm thứ 2 (tạo độ tâm nhóm thứ hai c2 (2,1))

Bước 2 Tính khoảng cách từ các đối tượng đến tâm của các nhóm (Khoảng cách

Ví dụ, khoảng cách từ loại thuốc C=(4,3) đến tâm c1(1,1) la 3.61 va đến tâm c2(2,1) la 2.83 được tính như sau:

Trang 15

Bước 3 Nhóm các đối tượng vao nhóm gần nhất

Ta thấy rằng nhóm 1 sau vòng lặp thứ nhất gồm có 1 đối tượng A va nhóm 2 gồm các đối tượng còn lại A, B,C,D

Bước 4.Tính lại tâm cho nhóm mới:

Bước 5.Tính lại tọa độ các tâm cho các nhóm mới dựa vao tọa độ của các đối

tượng trong nhóm Nhóm 1 chỉ có 1 đối tượng A nên tâm nhóm 1 vẫn không đổi, c1(1,1) Tâm nhóm 2 được tính như sau:

Bước 6 Tính lại khoảng cách từ các đối tượng đến tâm mới

Trang 16

Bước 7 Nhóm các đối tượng vao nhóm

Bước 8 Tính lại khoảng cách từ các đối tượng đến tâm mới

Bước 9 Nhóm các đối tượng vao nhóm

Trang 17

Ta thấy G2 = G1 (Không có sự thay đổi nhóm nao của các đối tượng) nên thuật toán dừng va kết quả phân nhóm như sau:

2.4 Ưu nhược điểm củ thuật toán K-means

Ưu điểm:

Scalable tương đối: trong khi xử lý các tập dữ liệu lớn

Hiệu suất tương đối: O(tkn), với n la số đối tượng, k la số cụm, va t là số lần lặp Thông thường k, t << n.

Thường kết thúc ở điểm tối ưu cục bộ; có thể tìm được tối ưu toan cục dùng các

kỹ thuật như thuật toán di truyền

2.5 Các biến đổi của phương pháp gom cụm k-means

Vài biến thể của k-means khác nhau ở:

o Chọn k centroids ban đầu

o Tính toán sự bất tương tự

o Các chiến lược tính centroids cụm

Xử lý dữ liệu phân nhóm: k-modes (Huang’98)

o Thay trị trung bình của cluster bằng modes

o Dùng các độ đo bất tương tự mới cho các đối tượng phân nhóm

o Dùng phương pháo dựa trên tần số để cập nhật modes

Phương pháp gom cụm K-medoids:

Trang 18

o Đầu vao của thuật toán: số cụm k và CSDL có n đối tượng

o Thuật toán gồm 4 bước :

1. Chọn bất kỳ k đối tượng lam medoids ban đầu (các đối

tượng đại diện)

2. Gán từng đối tượng còn lại vao cụm có medoid gần nhất

3. Chọn nonmedoid va thay một trong các medoids bằng nó nếu nó cải thiện chất lượng cụm

4. Quay về bước 2, dừng khi không còn phép gán mới

III. CHƯƠNG TRÌNH DEMO:

1. Giao diện K-Means:

1.1 Cửa sổ hướng dẫn sử dụng chương trình: (Xuất hiện khi khởi động chương

trình)

Trang 19

1.2 Giao diện

2. Chạy demo chương trình

2.1 Gom cụm với ma trận phân hoạch RANDOM:

Bai toán Ví dụ 6.3 trang 118 Giáo trình KHAI THÁC DỮ LIỆU PGS.TS Đỗ Phúc:Cho tập điểm:X1(11,3); X2(1.5,3.2); X3(1.3,2.8), X4(3,1)

Dùng k-means gom cụm với k=2:

Trang 20

Tiếp theo:

Tiếp theo:

Trang 21

2.2 Gom cụm với MA TRẬN PHÂN HOẠCH (NHẬP VÀO):

Bai toán Ví dụ 6.3 trang 118 Giáo trình KHAI THÁC DỮ LIỆU

Trang 22

2.3 Gom cụm với VECTO TRỌNG TÂM(NHẬP VÀO):

Bai toán Ví dụ 6.3 trang 118 Giáo trình KHAI THÁC DỮ LIỆU

PGS.TS Đỗ Phúc.

Cho tập điểm:X1(11,3); X2(1.5,3.2); X3(1.3,2.8), X4(3,1)

Vecto trọng tâm V1(3,1),V2(0,2)

Trang 23

3. Một số lỗi gặp phải khi nhập dữ liệu:

Trang 24

3.1 Nhập thiếu điểm:

Hoặc:

Giải quyết:

Trang 25

3.2 Ma trận phân hoạch có giá trị Null hoặc giá trị của ma trận phân hoach không phải là

0 hoặc 1

Trang 27

3.3 Ma trận phân hoạch và số điểm nhập vào không khớp:

Trang 28

IV CÀI ĐẶT THUẬT TOÁN:

1. Nhìn chung về thuật toán:

2. Nút Gom Cụm

Các ham va các Nút:

Code rõ từng bước:

2.1 Nút Gom Cụm

Trang 29

Khai báo:

#region Khai báo

StringBuilder sb = newStringBuilder();// Chuỗi xuất kết quả

int dong = dataGridView.RowCount – 1;

int cot = dataGridView.ColumnCount

int[,] Usau = newint[2, dong];

int[,] U = newint[2, dong];

dataInput = newdouble[dong, cot];

int sd = int.Parse(sodiem.Text);

int sc = int.Parse(socum.Text);

#endregion

Bước 1:Kiểm tra nhận giá trị các điểm nhập vao.Lưu trữ vao ma trận dataInput:

#region Bước 1:Kiểm tra nhận giá trị các điểm nhập vao.Lưu trữ vao ma trận dataInput

#region Nhận giá trị các điểm nhập vao Lưu trữ vao ma trận dataInput

Trang 30

#endregion

#region Kiểm tra nhập các điểm cần gom cụm

if (dong < sd || dong > sd)

{

MessageBox.Show("NHẬP KHÔNG ĐÚNG VỚI SỐ ĐIỂM ĐỀ BÀI

\n 1 Nhấn nút OK \n 2 Tiếp theo nhấn nút Nhập lại điểm gom cụm", "LƯU Ý"); return;

#region Bước 2: Kiểm tra tính theo Vecto trọng tâm hay random ma trận gom cụm hay

ma trận phân hoạch nhập vao

#region Nếu tínhtheo vecto trọng tâm

if (tinhtheovectotrongtam.Checked == true)

{

#region Nhận giá trị của vecto trọng tâm

double[,] V = newdouble[2, 2];

Ngày đăng: 10/04/2015, 00:09

HÌNH ẢNH LIÊN QUAN

Hình : Chuẩn bị dữ liệu cho bài toán gom cụm - K-MEANS CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE
nh Chuẩn bị dữ liệu cho bài toán gom cụm (Trang 48)
Hình 12. Thực hiện  bài toán gom cụm - K-MEANS CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE
Hình 12. Thực hiện bài toán gom cụm (Trang 49)
Bảng trong cluster sử dụng những đặc điểm nay lưu trữ la tốt. Nếu không chỉ định giá trị  cho các tham số, cơ sở dữ liệu Oracle sử dụng các giá trị mặc định sau đây: - K-MEANS CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE
Bảng trong cluster sử dụng những đặc điểm nay lưu trữ la tốt. Nếu không chỉ định giá trị cho các tham số, cơ sở dữ liệu Oracle sử dụng các giá trị mặc định sau đây: (Trang 56)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w