1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

các kiểu dữ liệu cơ bản

43 216 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 2,72 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chương 6 Gom cụmtượng thành các cụm cluster có các đối tượng giống nhau... Dựa trên kích thước Dựa trên khoảng cách điạ lýVí dụ gom cụm các ngôi nhà Chương 6 Gom cụm...  Dự báo động đất

Trang 1

Simple Perceptron

● Simplest output function

● Used to classify patterns said to be linearly separable

Trang 2

Linearly Separable

Trang 3

Linearly Separable

The bias is proportional to the offset of the plane from the origin

The weights determine the slope of the line

The weight vector

is perpendicular to

the plane

Trang 4

Perceptron Learning Algorithm

● We want to train the perceptron to classify inputs correctly

● Accomplished by adjusting the connecting weights and the bias

● Can only properly handle linearly separable sets

Trang 5

Perceptron Learning Algorithm

● We have a “training set” which is a set of input vectors used to train the perceptron.

During training both wi and θ (bias) are modified

for convenience, let w0 = θ and x0 = 1

number (small steps lessen the possibility of

destroying correct classifications)

Initialise wi to some values

Trang 6

Perceptron Learning Algorithm

1 Select random sample from training set as input

2 If classification is correct, do nothing

3 If classification is incorrect, modify the weight

Trang 7

0 = w0w1 x1w2 x2

Trang 8

Learning Example

η = 0.2

1 0.5 

x1 = 1, x2 = 1

wTx > 0

Correct classification,

no action

Trang 9

Learning Example

η = 0.2

1 0.5 

x1 = 2, x2 = -2

Trang 14

Learning Example

η = 0.2

0.2 1.1 

x1 = -2, x2 = 1

Trang 15

Learning Example

η = 0.2

0.2 1.1 

x1 = 1.5, x2 = -0.5

Trang 18

Chương 6 Gom cụm

phương tiện và WWW

thuật toán clustering đang tồn tại không thể duy trì tốt

phải thường xuyên clustering lại toàn bộ dữ liệu?

Giới thiệu

Trang 19

Chương 6 Gom cụm

tượng thành các cụm (cluster) có các đối tượng giống nhau.

<= j <= k

được biết trước.

Giới thiệu

Trang 20

Dựa trên kích thước Dựa trên khoảng cách điạ lý

Ví dụ gom cụm các ngôi nhà

Chương 6 Gom cụm

Trang 21

… In

0.5 0.2 0.3

Giới thiệu

Chương 6 Gom cụm

Trang 22

 Phương pháp gom cụm tốt là phương pháp sẽ

tạo các cụm có chất lượng :

yếu tố

được đo bằng khả năng phát hiện một số hay tất cả các mẫu bị ẩn, bị dấu.

Tiêu chuẩn gom cụm

Chương 6 Gom cụm

Trang 23

Tiếp thị: khám phá các nhóm khách hàng phân biệt

trong CSDL mua hàng

Sử dụng đất: nhận dạng các vùng đất sử dụng giống

nhau khi khảo sát CSDL quả đất

Bảo hiểm: nhận dạng các nhóm công ty có chính

sách bảo hiểm mô tô với chi phí đền bù trung bình cao

Hoạch định thành phố: nhận dạng các nhóm nhà

cửa theo loại nhà, giá trị và vị trí địa lý

Dự báo động đất: dựa trên các kết quả gom cụm các

vết đứt gãy của địa tầng

Ứng dụng của gom cụm

Chương 6 Gom cụm

Trang 24

Độ đo khoảng cách thường dùng để xác định sự

khác nhau hay giống nhau giữa hai đối tượng.

p p

q q

j

x i

x j

x i

x j

x i

x j

i

2 2

1

với i = (xi1, xi2, …, xip) và j =(xj1, xj2, …, xjp):

hai đối tượng p-chiều và q là số nguyên dương

|

|

|

|

|

| ) ,

(

2 2

1

i

x j

i

Độ đo khoảng cách

Chương 6 Gom cụm

Trang 25

Nếu q=2, d là khoảng cách Euclid :

)

|

|

|

|

| (|

) ,

2 2

2 1

1 x j x i x j x ip x jp

i

x j

Trang 26

 Không gian dữ liệu có n

điểm (đối tượng)

Trang 27

1 Chọn ngẫu nhiên k điểm làm trọng tâm ban đầu của

k cụm

2 Gán (hoặc gán lại) từng điểm vào cụm có trọng tâm gần điểm đang xét nhất

• Vì không có phép gán lại nào có nghĩa là các cụm đã ổn định và thuật toán không thể cải thiện làm giảm độ phân biệt hơn được nữa.

3 Tính lại trọng tâm cho từng cụm

4 Quay lại bước 2

Thuật toán gom cụm K-Means (1)

Chương 6 Gom cụm

Trang 28

Đầu vào của thuật toán: số cụm k, và CSDL có n

đối tượng

Thuật toán gồm 4 bước:

rỗng

của các đối tượng của cụm) cho từng cụm trong cụm hiện hành

gán mới

Thuật toán gom cụm K-Means (2)

Chương 6 Gom cụm

Trang 29

Thuật toán gom cụm K-Means

Chương 6 Gom cụm

Trang 30

 Giả sử có 4 sinh viên A, B, C, D Mỗi sinh viên được biểu diễn bởi hai đặc trưng X, Y.

Mục đích là nhóm các sinh viên đã cho vào 2 nhóm/phòng

Bước 1 Khởi tạo tâm cho 2 nhóm Giả sử chọn A là tâm

của nhóm thứ nhất (tọa độ tâm nhóm thứ nhất c1(1,1)) và B

Chương 6 Gom cụm

Ví dụ về K-Means

Trang 31

Bước 2 Tính khoảng cách từ các đối tượng đến

tâm của các nhóm (Khoảng cách Euclidean)

Chương 6 Gom cụm

2 )

1 , 2 (

1 )

1 , 1 ( 24

4 83 2 0 1

5 61

3 1 0

2

1 0

group C

D

Trang 32

Ví dụ, khoảng cách từ đối tượng C=(4,3) đến tâm c1(1,1) là 3.61 và đến tâm c2(2,1) là 2.83 được tính như sau:

Bước 3 Nhóm các đối tượng vào nhóm gần nhất

Ta thấy rằng nhóm 1 sau vòng lặp thứ nhất gồm có 1 đối tượng A và nhóm 2 gồm các đối tượng còn lại B,C,D.

Chương 6 Gom cụm

Trang 33

Bước 4 Tính lại tọa độ các tâm cho các nhóm mới dựa vào tọa độ của

các đối tượng trong nhóm Nhóm 1 chỉ có 1 đối tượng A nên tâm nhóm 1 vẫn không đổi, c1(1,1) Tâm nhóm 2 được tính như sau:

Bước 5 Tính lại khoảng cách từ các đối tượng đến tâm mới

Vấn đề chọn số cụm k

Chương 6 Gom cụm

2 )

3

8 , 3

11 (

1 )

1 , 1 ( 89

1 47 0 36 2 14 3

5 61

3 1

0

2

1 1

group C

D

Trang 34

Chương 6 Gom cụm

Bước 6 Nhóm các đối tượng vào nhóm

Bước 7 Tính lại tâm cho nhóm mới

) 5 3 , 5 4 (

) 2

4

3 , 2

5

4 ( )

1 , 5 1 (

) 2

1

1 , 2

Trang 35

Bước 8 Tính lại khoảng cách từ các đối tượng đến tâm

mới

Bước 9 Nhóm các đối tượng vào nhóm

Ta có G2 = G1 nên thuật toán dừng và kết quả phân nhóm như sau:

2 )

5 3 , 5 4 (

1 )

1 , 5 1 ( 71

0 71 0 54 3 30 4

61 4 20 3 50 0 50 0

2

1 2

group C

D

Chương 6 Gom cụm

Trang 36

Chương 6 Gom cụm

Bài tập về K-Means

 Bài 1 : Cho tập điểm

x1={1,3} ={x11,x12}; x2={1.5 , 3.2 }={x21,x22}x3 ={1.3 ,2.8}={x31,x32}; x4={3, 1}={x41,x42}Dùng K-Mean để gom nhóm (K=2)

 Bài 2 : Cho tập điểm

Trang 37

 Tương đối nhanh

• n: số điểm trong không gian dữ liệu

• k: số cụm cần phân hoạch

• t: số lần lặp (t << n)

Ưu điểm của K-means

Chương 6 Gom cụm

Trang 38

 Không đảm bảo đạt được tối ưu toàn cục

Nhược điểm của K-means

Chương 6 Gom cụm

Trang 42

BÀI TẬP MẪU MÔN HỌC DATA MINING

Gom cụm theo thuật toán k-means

Dùng k-means để gom cụm với k = 2

Bước 1 : Khởi tạo ma trận phân hoạch U có 4 cột ứn g với 4

điểm và 2 dòng ứng với 2 cụm,

Bước 2: U=(mij) , 1  i  2 và 1  j  4

Cho n= 0 ( số lần lặp), tạo U0

x1 x2 x3 x4 U0= c1 1 0 0 0

c2 0 1 1 1

Lưu ý mỗi cột chỉ có 01 bit 1

Bước 3: Tính vector trọng tâm:

Do có hai cụm C1,C2 nên có hai vector trọng tâm v1,v2

Các tính vector trọng tâm:

Với vector v1 cho cụm 1:

14 13 12 11

41

* 14 31

* 13 21

* 12 11

* 11

11

m m m m

x m x m x m x m

0 0 1

3

* 0 3 1

* 0 5 1

* 0 1

42

* 14 32

* 13 22

* 12 12

* 11

12

m m m m

x m x m x m x m

0 0 1

1

* 0 8 2

* 0 2 3

* 0

41

* 24 31

* 23 21

* 22 11

* 21

21

m m m m

x m x m x m x m

8 5 1

1 1 0

3

* 3 1 1 5 1

* 1 1

Trang 43

24 23 22 21

42

* 24 32

* 23 22

* 22 12

*

21

22

m m m m

x m x m x m x

7 1

1 1

0

1

* 1 8 2

* 2

Gom các đối tượng vào cụm

a) Tính khoảng cách Euclide từ từng điểm đến cụm c1, c2 chọn cụm

có khoảng cách gần nhất để đ ưa đối tượng vào cụm

2 2

) 12 12 ( ) 11 11 (

) 22 12 ( ) 21 11 ( )

c2 0 0 0 1

Lặp cho đến khi | Un – Un-1| < epsilon thì dừng , nếu sai thì quay về bước 3.

Ngày đăng: 25/11/2017, 20:58

TỪ KHÓA LIÊN QUAN

w