1. Trang chủ
  2. » Công Nghệ Thông Tin

Gom nhóm dữ liệu Khai thác dữ liệu data mining

25 557 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 0,94 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

UӝQJ các nhóm cho ÿӃQ khi PұW ÿӝ FӫD ÿӕL WѭӧQJGӳ OLӋX trong vùng lân FұQ YѭӧW qua QJѭӥQJ.. Khái QLӋP Fѫ EҧQ : Hai tham Vӕ do QJѭӡL dùng xác ÿӏQK Eps: Bán kínhOӟQ QKҩW FӫD vùng lân FұQ Mi

Trang 4

Customer Age Income

Distance from Nellie

Trang 7

UӝQJ các nhóm cho ÿӃQ khi PұW ÿӝ FӫD ÿӕL WѭӧQJ

Gӳ OLӋX trong vùng lân FұQ YѭӧW qua QJѭӥQJ

7KXͅW toán :

DBSCAN

OPTICS (Ordering Points To Identify the

Clustering structure)

DENCLUE (DENsity- based CLUstEring)

CLIQUE (Clustering In QUEst)

Trang 8

3+ѬѪ1*3+È3'Ӵ$75Ç10Ұ7ĈӜ

2 Khái QLӋP Fѫ EҧQ :

Hai tham Vӕ do QJѭӡL dùng xác ÿӏQK

Eps: Bán kínhOӟQ QKҩW FӫD vùng lân FұQ

MinPts : 6ӕ QKӓ QKҩW các ÿӕL WѭӧQJ trong vùng lân FұQ

QKL͙X K˿Q QJ́͹QJ MinPts trong bán kính Eps.

ĈӕL WѭӧQJ biên (border point): Vӕ ÿӕL WѭӧQJ trong

bán kính Eps ít KѫQ MinPts QKѭQJ YүQ QҵP trong

Trang 9

3+ѬѪ1*3+È3'Ӵ$75Ç10Ұ7ĈӜ

2 .KiLQLӋPFѫEҧQ

0ӝW ÿӕL WѭӧQJ p là ÿӕL WѭӧQJ có PͅW ÿͱ ÿ̹W

ÿ́ͻF WUΉF WL͗S (directly density_reachable)

Wӯ ÿӕL WѭӧQJ q theo Eps, MinPts QӃX :

p WKXӝF Neps(q)

|Neps(q)| >= MinPts

pq

MinPts = 5 Eps = 1 cm

Trang 10

Spatial Clustering of Application with

Trang 15

z 9tGөYӅFiELӋW

z Trong PӝW WұS Gӳ OLӋX OѭX OҥL YLӋF Vӱ GөQJ WKҿ tín

GөQJ có PӝW OҫQ mua YӟL Vӕ OѭӧQJ FӵF OӟQ so YӟL

các OҫQ mua ÿӅX ÿһQ WUѭӟF ÿy

z /ҫQ mua này WҥR nên Vӵ nghi QJӡ Vӱ GөQJ WKҿ tín

Trang 16

z 3KѭѫQJ pháp này GӵD vào sai Vӕ trong mô hình KӗL qui WX\ӃQ

tính FӫD WұS Gӳ OLӋX.

z Các SKҫQ Wӱ có sai Vӕ OӟQ QKҩW là các cá ELӋW

z +RһF GӵD vào phân Eӕ FKXҭQ ÿѭӧF WҥR Wӯ WұS Gӳ OLӋX.

z 3KѭѫQJ pháp này tìm các cá ELӋW FөF Eӝ GӵD trên PұW ÿӝ FөF

z Phân WұS Gӳ OLӋX thành WӯQJ OӟS (layer), EҵQJ cách WҥR các

bao OӗL YӟL FKLӅX sâu khác nhau.

z Các OӟS có FKLӅX sâu QKӓ có NKҧ QăQJ FKӭD các cá ELӋW

z .ӃW TXҧ SKө FӫD các WKXұW toán gom FөP ( DBSCAN, ROCK,

Trang 17

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

x

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Complete Link

Trang 18

z ĈiQK giá FK̽W ÓͻQJ nhóm là QKL͟P Yͽ

khó NKăQ và SK΁F W̹S QK̽W trong phân

z ĈiQK giá NӃW TXҧ gom nhóm không dùng

thông tin bên ngoài : FKӍ Vӱ GөQJ DL

z External index : ÿR PӭF ÿӝ các nhãn OӟS

WѭѫQJ ÿӗQJ YӟL các nhãn OӟS bên ngoài ÿm

cung FҩS VҹQ.

z Entropy

z Internal Index : ÿR FKҩW OѭӧQJ FӫD FҩX trúc

nhóm không dùng các thông tin bên ngoài

z SSE

z Relative Index : dùng ÿӇ so sánh 2 SKѭѫQJ

pháp gom nhóm KRһF so sánh các nhóm

Trang 19

1 2 3 4 5 6 7 8 9 10

z Internal Index : SSE

Công WKӭF tính Bình SḰ˿QJ sai ( Sum

of Squared Error - SSE)

SSE

1

2

) , (

Trang 20

m p

log2

1

ij L

j

e m

m e

1

Trang 21

m purity

Natio nal Sports

Trang 22

Các WKXͅW toán gom nhóm chính chia

thành : phân KR̹FK phân F̽S GΉD trên

PͅW ÿͱ GΉD trên ÓͳL và GΉD trên mô hình

Bài toán xác ÿӏQK cá ELӋW là PӝW ӭQJ GөQJ

quan WUӑQJ FӫD phân tích nhóm.

ĈiQK giá FK̽W ÓͻQJ nhóm là OƭQK YΉF F̿Q

WͅS trung nghiên F΁X.

7Ï07Ҳ7

7¬,/,ӊ87+$0.+Ҧ2

Concepts and Techniques

http://www.cs.sfu.ca/~han/dmbook

http://www-faculty.cs.uiuc.edu/~hanj/bk2/slidesindex.html : 2 nd

2. P.-N Tan, M Steinbach, V Kumar, &KѭѫQJ 8

-Introduction to Data Mining

http://www-users.cs.umn.edu/~kumar/dmbook/ch8.pdf

http://ifsc.ualr.edu/xwxu/publications/kdd-96.pdf

Trang 23

Q & A

45

1. ChoWұS DL PӝW FKLӅX: {6, 12, 18, 24, 30, 42, 48}

ÿҫX tiên GӵD k-mean(k=2) Tính ÿӝ ÿR SSE cho WӯQJ

WұS 2 nhóm So sánh NӃW TXҧ

¾ m1 = 18, m2 = 45

¾ m1 = 15, m2 = 40

QKѭ WKӃ nào ?

%¬,7Ұ3

Trang 24

Natio nal

gom nhóm.

b) 7ҥR ma WUұQ KӛQ ORҥQ (so YӟL FӝW response) và tính ÿӝ ÿR

entropy và purity cho 2 nhóm WҥR ra Wӯ câu a).

Ngày đăng: 10/02/2017, 07:47

TỪ KHÓA LIÊN QUAN

w