1. Trang chủ
  2. » Công Nghệ Thông Tin

Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)

69 146 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 11,79 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)

Trang 3

Ngành: Công ngh Thông tin

Sinh viên th c hi n: Cao H u H i

ng d n: Nguy n Tr

Mã sinh viên: 1212101007

H I PHÒNG 2016

Trang 4

TR T H

Trang 5

1 N i dung và các yêu c u c n gi i quy t trong nhi m v tài t t nghi p.

a N i dung:

- Tìm hi u v khai phá d li u, khai phá d li u Web

- Tìm hi u các thu t toán phân c m ph bi n

- Áp d ng các thu t toán phân c m trong tìm ki m và phân c m tài li u Web

- Th nghi m v i các công c gi i quy t bài toán

b Các yêu c u c n gi i quy t

- N c lý thuy t v khai phá d li u Web

- N c các thu t toán phân c m d li u

- N c quá trình phân c m d li u Web

- c mô hình phân c m d li u v i ph n m n Orange.

2 Các s li u c n thi thi t k , tính toán

m th c t p

Trang 7

PH N NH N XÉT TÓM T T C A CÁN B NG D N

ng c tài t t nghi p (so v i n i dung yêu c ra trong nhi m v tài t t nghi p):

m ghi b ng s và ch )

Trang 9

L I C

c m trong khai phá d li u Web n g i nh ng l

ng viên em r t nhi u trong quá trình h c t p và làm án t t nghi p

M t s c c g hoàn thi n báo cáo t t nghi p song kh

còn h n ch nên bài báo cáo v n còn thi u nhi u sai sót Vì v y em r c s

Trang 10

M C L C

L I C 1

M C L C 2

DANH SÁCH HÌNH 4

DANH SÁCH B NG 6

DANH M C T VI T T T 6

U WEB 8

1.1 Khai phá d li u và khai phá tri th c 8

1.1.1 Khai phá d li u 8

1.1.2 Quá trình khám phá tri th c 8

1.1.3 Khai phá d li 9

1.1.4 Các k thu t áp d ng trong khai phá d li u 9

1.1.5 Nh ng ch a khai phá d li u 10

1.1.6 ng d ng c a khai phá d li u 11

1.2 m d li u 12

1.2.1 k thu t phân c m 12

1.2.2 ng d ng c a phân c m d li u 14

1.2.3 Các yêu c i v i k thu t phân c m d li u 14

1.2.4 Các ki u d li 15

1.3 19

1.3.1 Các ki u d li u Web 21

1.3.2 X lý d li n ng d ng trong khai phá d li u Web 22

1.3.3 M t s v trong x lý d li n 22

1.4 Ti u k 24

T S K THU T PHÂN C M D LI U 25

2.1 Thu t toán k-means 25

2.2 Thu t toán PAM 27

Trang 11

2.3 Thu t toán BIRCH 31

2.4 Thu t toán DBSCAN 33

2.5 Ti u k 36

LI U WEB 37

3.1 Khai phá n i dung Web 37

3.1.1 Khai phá k t qu tìm ki m 38

3.1.2 n Web 38

3.2 Khai phá theo s d ng Web 43

3.2.1 Các k thu c s d ng trong khai phá theo s d ng Web 44

3.2.2 Quá trình khai phá theo s d ng Web 44

3.3 Khai phá c u trúc Web 45

3.3.1 Tiêu chu 46

3.3.2 Khai phá và qu n lý c ng Web 47

3.4 Áp d ng thu t toán trong tìm ki m và phân c m tài li u Web 48

3.4.1 Tìm hi u k thu t phân c m tài li u Web 48

3.4.2 Quá trình tìm ki m và phân c m tài li u 49

3.5 Th c nghi m 53

3.6 Ti u k 59

K t lu n 60

Tài li u tham kh o 61

Trang 12

DANH SÁCH HÌNH

Hình 1-1: Quy trình khai phá tri th c 8

Hình 1-2: Mô ph ng s phân c m 13

Hình 1-3: Phân lo i d li u Web 21

Hình 1- th th ng kê t n s c a t nh lu t Zipf 24

Hình 2-1: Hình d ng c m d li c khám phá b i k-means 26

Hình 2-2: = d( , ) d( , ) Cjmp không âm 28

Hình 2-3 : có th âm ho 29

Hình 2- ng h p C jmp= 0 29

Hình 2- ng h p C jmp = (O j ,O p )- d(O j , O m,2 ) C jmpluôn âm 30

Hình 2- c t o b i BIRCH 31

Hình 2-7: Lân c n c a m m p v ng Eps 33

Hình 2-8: M - c tr c ti p 34

Hình 2-9: M - c 34

Hình 2-10: M - liên thông 35

Hình 2- ng nhi u 35

Hình 3-1: Phân lo i khai phá Web 37

Hình 3- n Web 38

Hình 3-3: Quan h tr c ti p gi a 2 trang 46

Hình 3- ng trích d n 47

Hình 3- ch m c 47

Hình 3- c phân c m k t qu tìm ki m trên Web 50

Hình 3-7: Mô hình phân c m d li u trên Orange 54

Hình 3- li u chu n hóa và mô hình 54

Hình 3-9: B ng chu n hóa 55

Hình 3-10: Do kho ng cách b ng Euclidean 55

Hình 3-11: Phân c m d li m phân c p 56

Trang 13

Hình 3-12: D li u sau khi phân c m phân c p 57Hình 3-13: Phân c m b ng k-means, 8 c m là t t 58Hình 3-14: Bi u di n d li u sau khi phân c m k-means 59

Trang 14

9 BIRCH Balanced Iterative Reducing and

Clustering Using Hierarchies

Thu t toán phân c m d a

ng cây phân c p

10 DBSCAN Density Based Spatial Clustering of

Applications with Noise

Thu t toán phân c m d a trên m

n

nh t

Trang 15

d ng k thu t khai phá d li u và khám phá tri th

vi c nghiên c u các mô hình d pháp khai li u m i và áp d phá d li u trong khai phá tài nguyên Web là m t xu th t t y u v c v a

k thu t phân c m d li gi i quy t bài toán khai phá d li u Web Trong ph n

t mô hình áp d ng k thu t phân c m d li u trong tìm ki m và phân c m tài li u Web

Trang 16

LI U WEB

1.1 Khai phá d li u và khai phá tri th c

1.1.1 Khai phá d li u

c m c nghiên c u, nh m t ng khai thác thông tin, tri th c m i h u ích, ti m n t nh ng CSDL l , t ch c, doanh nghi y kh n xu t, kinh doanh, c nh tranh cho các

, t ch c này Các k t qu nghiên c u khoa h c cùng nh ng ng d ng thành công trong KDD cho th y KPDL là m v c phát tri n b n v ng, mang l i nhi u

l i ích và có nhi u tri n v ng th n so v i các công c tìm

ki m phân tích d li u truy n th ng Hi ng d ng ngày càng r ng rãi

i, tài chính, y h c, vi n thông, tin sinh

khai phá, trích xu t, khai thác và s d ng

nh ng d li u có giá tr ti m n t bên trong ng l n d li trong các

d li u (CSDL), kho d li u, trung tâm d li

Trang 17

vào histograms, entropy c này, d li u s nh c rút g n

c r i r c hóa

Bi i d li u: c chu n hóa và làm m n d li li u vcùng m t ki u, d ng thu n l i nh t nh m ph c v quá trình x c sau

Khai phá d li u: c áp d ng nh ng k thu

thu t c a h c máy) nh khai thác d li u, trích ch c nh ng m u ,

nh ng m i liên h c bi t trong d li c quan tr ng và t n nhi u th i gian nh t c a toàn quá trình KDD

u di n tri th c: Nh ng m u thông tin và m i liên h trong d li u

th ng kê cho mô hình d li

Analysis - EDA)

1.1.4 Các k thu t áp d ng trong khai phá d li u

vào các bài toán c n gi i quy t thì KPDL g m các k thu t sau [5]:

Phân l p và d báo: X p m ng vào m t trong nh ng l c

t o, Phân l p và d c g i là h c có giám sát

Lu t k t h p: Là d ng lu t bi u di n tri th c d n Ví d

n gi i vào siêu th n u mua ph n thì có t i 80% trong s h s t

k t h c ng d ng nhi c kinh doanh, y h c, tin-sinh, tài chính và

th ng ch ng khoán,

Trang 18

Phân tích chu i theo th i gian t k t h

v c tài chính và th ng ch ng khoán vì nó có tính d báo cao

Phân c m: X ng theo t ng c m d li u t nhiên Phân c m còn

quan tr ng khác Vi c mô t t p trung vào tìm ki m các m i có th hi u

c v i các ng d ng h c máy và nh n d ng m c d báo

c a KDD g m [1]:

Mô t l p và khái ni m: D li u có th c k t h p trong l p và khái ni m Ví

d : trong kho d li u bán hàng thi t b tin h c, các l p m t hàng bao g m máy tính,

m khách hàng bao g m khách hàng mua s và khách mua l Vi c

hoá Mô t l p và khái ni c b t ngu n t li u và phân bi t d

li li u là quá trình t ng h p nh c tính ho c các thành ph n chung c a m t l p d li u m c tiêu Phân bi t d li u là so sánh l p d li u m c tiêu

v i nh ng l p d li i chi u khác L p d li u m c tiêu và các l i chi u là do

Phân tích s k t h p: Phân tích s k t h p là khám phá lu t k t h p th hi n m i

quan h gi a các thu c tính giá tr mà ta nh n bi c nh t n su t xu t hi n cùng nhau c a chúng

Phân l p và d báo: Phân l p là quá trình tìm ki m m t t p các mô hình ho c

ch và phân bi t nó v i các l p ho c khái ni m khác Các mô hình này nh m m h d báo v l p c a m t s ng Vi c xây d ng mô hình d a trên s phân tích m t t p các d li c hu n luy n có nhi u d ng th hi n mô hình

t phân l p (IF-THEN), cây quy nh, công th c toán h c hay m

nhiên trong nhi u ng d i ta mong mu n d ng giá tr khuy t thi u

Trang 19

ng h p d c a d li u ki u s c khi phân l p và d báo, có th c n th c hi n phân tích thích h nh và lo i bcác thu c tính không tham gia vào quá trình phân l p và d báo.

ng d li t nhãn c a l p Nhìn chung, nhãn l p không t n t i trong

su t quá trình hu n luy n d li u, nó phân c m có th c s d

cu c là nhi u và lo i b chúng Tuy nhiên trong m t s ng d ng, ch ng h

theo th i gian Phân tích s ti n hoá có th bao g m c oá, phân bi t, tìm

lu t k t h p, phân l n th i gian, phân tích d li u theo chu i

th i gian, so sánh m u theo chu k và phân tích d li u d

Trang 21

và nghiên c u cho t ng c m d li u này nh m khám phá và tìm ki m các thông tin

ti m n, h u ích ph c v cho vi c ra quy nh Ví d :

y, PCDL x là m lý thông tin quan tr ng và

ph bi n, nó nh m khám phá m i liên h gi a các m u d li u b ng cách t ch c chúng thành các c m [1]

- Xây d ng các tiêu chu n phân c m

- Xây d ng mô hình cho c u trúc c m d li u

- Xây d ng thu t toán phân c m và xác l u ki n kh i t o

- Xây d ng các th t c bi u di t qu phân c m

Trang 22

1.2.2 ng d ng c a phân c m d li u

PCDL là m t trong nh ng công c chính c c ng d ng trong nhi u

i và khoa h c Các k thu c áp d ng cho m t

Khai phá Web: PCDL có th khám phá các nhóm tài li u quan tr ng, có nhi u ý

ng Web Các l p tài li u này tr giúp cho vi c khám phá tri th c

t d li u Web, khám phá ra các m u truy c p c c bi t hay khám phá

ra c

1.2.3 Các yêu c i v i k thu t phân c m d li u

Vi c xây d ng, l a ch n m t thu t toán phân c c then ch t cho vi c gi i quy t v phân c m, s l a ch n này ph thu c tính d li u c n phân c m,

Thích nghi v i các ki u d li u khác nhau: Thu t toán có th áp d ng hi u qu

cho vi c phân c m các t p d li u v i nhi u ki u d li li u ki u

s , ki u nh phân, d li nh danh, h ng m c, và thích nghi v i ki u d li u h n

h p

Trang 23

Khám phá ra các c m v i hình thù b t k : Do h u h t các CSDL có ch a nhi u

c các c m có tính t nhiên thì các thu t toán phân c m c n ph i có

T i thi ng tri th c c nh các tham s vào: Do các giá tr u vào

ng ng r t l n thu t toán phân c m và r t ph c t nh các giá

tr vào thích h i v i các CSDL l n

Ít nh y c m v i th t c a d li u vào: Cùng m t t p d li lý cho thu t toán PCDL v i các th t vào c ng d li u các l n th c hi n khác nhau thì không ng l n k t qu phân c m

Kh i d li u nhi u cao: H u h t các d li u phân c m trong

u ch ng các d li u l i, d li , d li u rác Thu t toán phân c m không nh ng hi u qu i v i các d li u nhi u mà còn tránh d n ch t

d ng các thu c tính c i các ki u thu c tính khác nhau là m t v

c n gi i quy i v i h u h t các t p d li u nh m cung c n thu n l i

nh n d ng s khác nhau c a các ph n t d li p d a trên hai

c mi n và h [2]

1.2.4.1 Phân lo i ki u d li u d c mi n

Thu c tính liên t c: N u mi n giá tr c a nó là vô h

gi a hai giá tr t n t i vô s giá tr khác Thí d c tính v màu, nhi

Trang 24

Thu c tính kho ng (Interval Scale): V i thu c tính kho ng, chúng ta có th xác

nh m t thu c ho ng sau thu c tính khác v i m t kho ng là bao nhiêu N u xi> yithì ta nói x cách y m t kho ng ng v i thu c tính

th i

Thu c tính t l (Ratio Scale): là thu c tính kho c xác nh m t

i so v m m c, thí d c tính chi u cao ho c cân n ng l y

m 0 làm m c

Trong các thu c tính d li u trình bày trên, thu nh danh và thu c tính

có th t g i chung là thu c tính h ng m c (Categorical), thu c tính kho ng và thu c

Trang 25

ph n t c a nó có th là nh ng b t k ng d li d

li c p trên c g i là m t không gian metric n u:

c g i là m t metric c a không gian Các ph n t c a

c g m c a không gian này

B ng 1-1: B ng tham s thu c tính nh phân

Trang 26

: ng có thu u là nhphân.

là t ng s các giá tr thu c tính có giá tr là 1 trong x và 0 trong y.

là t ng s các giá tr thu c tính có giá tr là 0 trong x và 1 trong y.

là t ng s các giá tr thu c tính có giá tr là 0 trong x và y.

Các tr ng thái Mi c s p th t Mi], ta có th thay th m i giá tr

c a thu c tính b ng giá tr cùng lo i ri, v i ri Mi} M i m t thu c tính th t có các mi n giá tr khác nhau, vì v y ta chuy i chúng v cùng mi n giá tr [0,1] b ng cách th c hi n phép bi i sau cho m i thu c tính:

,v i i=1, ,M i

Trang 27

S d ng công th c a thu c tính kho i v i các giá tr

c a thu c tính có th t

Thu c tính t l :

nh ng s d ng công th c tính logarit cho m i thu c tính xi, thí d qi = log(xi), lúc này qi c tính kho ng Phép bi i logarit này thích h p

ng h p các giá tr c a thu c tính là s

thu i v i các ki u d li u ho ng s cho cho t t c các thu c tính d li u Trong m t s ng h i ta lo i b a các thu c tính d li u b ng cách chu n hoá chúng ho c gán tr ng s cho m i thu c tính giá tr

l ch chu n Các tr ng s này có th s d ng cách trên, thí d v i m i thu c tính d li c gán tr ng s ng wi

.

Tóm l i, tu t ng h p d li u c th i ta s d ng các mô hình

m b o khách quan là r t quan tr ng và giúp xây d ng thu t toán PCDL có hi u qu

Khai phá d li u Web là vi c s d ng các k thu t ng hóa quá trình phát hi n và trích ch n nh ng thông tin h u ích t các tài li u, các thông tin d ch

v , h u trúc Website Hay nói cách khác khai phá Web là vi

dò nh ng thông tin quan tr ng và nh ng m u d li u ti n i dung Web, tthông tin truy c p Web, t liên k t trang và t ngu n tài n t

b ng vi c s d ng các k thu t KPDL, nó có th i rút ra tri th c, c i ti n

vi c thi t k các Website và phát tri n t t [1]

Tìm ki m ngu n tài nguyên: Th c hi n tìm ki m và l y các tài li u Web ph c v

cho vi c khai phá

L a ch n và ti n x lý d li u: L a ch n và ti n x lý t ng các lo i thông tin

Trang 28

T ng h p: T ng khám phá các m u chung t i các Website riêng l cnhi u Website v i nhau

Trang 29

1.3.1 Các ki u d li u Web

:

ng c a khai phá Web bao g m[4] : Server logs, Web pages, Web

hyperlink structures, d li u th ng tr c tuy n và các thông tin khác

Web logs(d li p Web): i dùng duy t Web, d ch v s phân

ra 3 lo i d li p: sever logs(d li p trên server), error logs(d

li p l i), và cookie logs(thông s c a t i dùng truy c p Wepsite) Thông qua vi c phân tích các tài li p này ta có th khám phá ra nh ng thông tin truy c p

pages là theo chu n HTML

Web hyperlink structure: c liên k t v i nhau b ng các siêu liên k u này r t quan tr khai phá thông tin Do các siêu liên k t Web là ngu n tài nguyên r t xác th c

Liên k

D li u XML

n t do

Hình 1-3: Phân lo i d li u Web

Trang 30

1.3.2 X lý d li n ng d ng trong khai phá d li u Web

1.3.2.1 D li n

n là lo i tài li u ph bi c s d ng trong m i ho ng c a con

c bi ng truy n truy n thông s và trên Internet Do v y, các bài toán x lý lo i d li u này t ra t r t s m và hi n nay nó v n là v

- Không gian vector: là m t t p h p bao g m các t

- T : là m t chu i các ký t (ch cái và ch s ) Ngo i tr các kho ng

Trang 31

1.3.3.1 Lo i b t d ng

u t ch bi u di n c u trúc

xu t hi n nhi n mà không liên quan gì t i ch ho c n i dung c a

gi m s chi u c a vector trong bi u di n

v t n s xu t hi n cao c a m t s t (ti ng Anh) trong 336,310 tài li u g m t ng c ng 125.720.891 t , 508.209 t riêng bi t

Frequent Word

Number of Occurrences Percentage of

quá trình x

Trang 32

ng nghiên c u và ng d ng trong khai phá

d li u là phân c m d li u, g m t ng quan v k thu t phân c m, các ng d ng c a phân c m, các yêu c i v i k thu t phân c m, các ki u d li

t ,

Trang 33

M T S K THU T PHÂN C M D LI U

ng

[5]

2.1 Thu t toán k-means

a thu t toán k-means là sinh ra k c m d li u {C1, C2 k} t

m t t p d li u g ng trong không gian d chi u Xi =( , , ), i=(1,n), sao cho hàm tiêu chu n:

i là tr g tâm c a c m Ci, D là kho ng cách gi ng

trung bình c ng các thành ph ng c ng vector d li u trong c m

u vào c a thu t toán là s c m k, t p CSDL g m n ph n t và tham s u ra c a thu t toán là các tr ng tâm c a các c m d li ng cách

Trang 34

Thu t toán k-means bao g

Ngày đăng: 25/02/2018, 07:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w