Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)Kết hợp các phương pháp phân cụm trong khai phá dữ liệu Web (Đồ án tốt nghiệp)
Trang 3Ngành: Công ngh Thông tin
Sinh viên th c hi n: Cao H u H i
ng d n: Nguy n Tr
Mã sinh viên: 1212101007
H I PHÒNG 2016
Trang 4TR T H
Trang 51 N i dung và các yêu c u c n gi i quy t trong nhi m v tài t t nghi p.
a N i dung:
- Tìm hi u v khai phá d li u, khai phá d li u Web
- Tìm hi u các thu t toán phân c m ph bi n
- Áp d ng các thu t toán phân c m trong tìm ki m và phân c m tài li u Web
- Th nghi m v i các công c gi i quy t bài toán
b Các yêu c u c n gi i quy t
- N c lý thuy t v khai phá d li u Web
- N c các thu t toán phân c m d li u
- N c quá trình phân c m d li u Web
- c mô hình phân c m d li u v i ph n m n Orange.
2 Các s li u c n thi thi t k , tính toán
m th c t p
Trang 7PH N NH N XÉT TÓM T T C A CÁN B NG D N
ng c tài t t nghi p (so v i n i dung yêu c ra trong nhi m v tài t t nghi p):
m ghi b ng s và ch )
Trang 9L I C
c m trong khai phá d li u Web n g i nh ng l
ng viên em r t nhi u trong quá trình h c t p và làm án t t nghi p
M t s c c g hoàn thi n báo cáo t t nghi p song kh
còn h n ch nên bài báo cáo v n còn thi u nhi u sai sót Vì v y em r c s
Trang 10M C L C
L I C 1
M C L C 2
DANH SÁCH HÌNH 4
DANH SÁCH B NG 6
DANH M C T VI T T T 6
U WEB 8
1.1 Khai phá d li u và khai phá tri th c 8
1.1.1 Khai phá d li u 8
1.1.2 Quá trình khám phá tri th c 8
1.1.3 Khai phá d li 9
1.1.4 Các k thu t áp d ng trong khai phá d li u 9
1.1.5 Nh ng ch a khai phá d li u 10
1.1.6 ng d ng c a khai phá d li u 11
1.2 m d li u 12
1.2.1 k thu t phân c m 12
1.2.2 ng d ng c a phân c m d li u 14
1.2.3 Các yêu c i v i k thu t phân c m d li u 14
1.2.4 Các ki u d li 15
1.3 19
1.3.1 Các ki u d li u Web 21
1.3.2 X lý d li n ng d ng trong khai phá d li u Web 22
1.3.3 M t s v trong x lý d li n 22
1.4 Ti u k 24
T S K THU T PHÂN C M D LI U 25
2.1 Thu t toán k-means 25
2.2 Thu t toán PAM 27
Trang 112.3 Thu t toán BIRCH 31
2.4 Thu t toán DBSCAN 33
2.5 Ti u k 36
LI U WEB 37
3.1 Khai phá n i dung Web 37
3.1.1 Khai phá k t qu tìm ki m 38
3.1.2 n Web 38
3.2 Khai phá theo s d ng Web 43
3.2.1 Các k thu c s d ng trong khai phá theo s d ng Web 44
3.2.2 Quá trình khai phá theo s d ng Web 44
3.3 Khai phá c u trúc Web 45
3.3.1 Tiêu chu 46
3.3.2 Khai phá và qu n lý c ng Web 47
3.4 Áp d ng thu t toán trong tìm ki m và phân c m tài li u Web 48
3.4.1 Tìm hi u k thu t phân c m tài li u Web 48
3.4.2 Quá trình tìm ki m và phân c m tài li u 49
3.5 Th c nghi m 53
3.6 Ti u k 59
K t lu n 60
Tài li u tham kh o 61
Trang 12DANH SÁCH HÌNH
Hình 1-1: Quy trình khai phá tri th c 8
Hình 1-2: Mô ph ng s phân c m 13
Hình 1-3: Phân lo i d li u Web 21
Hình 1- th th ng kê t n s c a t nh lu t Zipf 24
Hình 2-1: Hình d ng c m d li c khám phá b i k-means 26
Hình 2-2: = d( , ) d( , ) Cjmp không âm 28
Hình 2-3 : có th âm ho 29
Hình 2- ng h p C jmp= 0 29
Hình 2- ng h p C jmp = (O j ,O p )- d(O j , O m,2 ) C jmpluôn âm 30
Hình 2- c t o b i BIRCH 31
Hình 2-7: Lân c n c a m m p v ng Eps 33
Hình 2-8: M - c tr c ti p 34
Hình 2-9: M - c 34
Hình 2-10: M - liên thông 35
Hình 2- ng nhi u 35
Hình 3-1: Phân lo i khai phá Web 37
Hình 3- n Web 38
Hình 3-3: Quan h tr c ti p gi a 2 trang 46
Hình 3- ng trích d n 47
Hình 3- ch m c 47
Hình 3- c phân c m k t qu tìm ki m trên Web 50
Hình 3-7: Mô hình phân c m d li u trên Orange 54
Hình 3- li u chu n hóa và mô hình 54
Hình 3-9: B ng chu n hóa 55
Hình 3-10: Do kho ng cách b ng Euclidean 55
Hình 3-11: Phân c m d li m phân c p 56
Trang 13Hình 3-12: D li u sau khi phân c m phân c p 57Hình 3-13: Phân c m b ng k-means, 8 c m là t t 58Hình 3-14: Bi u di n d li u sau khi phân c m k-means 59
Trang 149 BIRCH Balanced Iterative Reducing and
Clustering Using Hierarchies
Thu t toán phân c m d a
ng cây phân c p
10 DBSCAN Density Based Spatial Clustering of
Applications with Noise
Thu t toán phân c m d a trên m
n
nh t
Trang 15d ng k thu t khai phá d li u và khám phá tri th
vi c nghiên c u các mô hình d pháp khai li u m i và áp d phá d li u trong khai phá tài nguyên Web là m t xu th t t y u v c v a
k thu t phân c m d li gi i quy t bài toán khai phá d li u Web Trong ph n
t mô hình áp d ng k thu t phân c m d li u trong tìm ki m và phân c m tài li u Web
Trang 16LI U WEB
1.1 Khai phá d li u và khai phá tri th c
1.1.1 Khai phá d li u
c m c nghiên c u, nh m t ng khai thác thông tin, tri th c m i h u ích, ti m n t nh ng CSDL l , t ch c, doanh nghi y kh n xu t, kinh doanh, c nh tranh cho các
, t ch c này Các k t qu nghiên c u khoa h c cùng nh ng ng d ng thành công trong KDD cho th y KPDL là m v c phát tri n b n v ng, mang l i nhi u
l i ích và có nhi u tri n v ng th n so v i các công c tìm
ki m phân tích d li u truy n th ng Hi ng d ng ngày càng r ng rãi
i, tài chính, y h c, vi n thông, tin sinh
khai phá, trích xu t, khai thác và s d ng
nh ng d li u có giá tr ti m n t bên trong ng l n d li trong các
d li u (CSDL), kho d li u, trung tâm d li
Trang 17vào histograms, entropy c này, d li u s nh c rút g n
c r i r c hóa
Bi i d li u: c chu n hóa và làm m n d li li u vcùng m t ki u, d ng thu n l i nh t nh m ph c v quá trình x c sau
Khai phá d li u: c áp d ng nh ng k thu
thu t c a h c máy) nh khai thác d li u, trích ch c nh ng m u ,
nh ng m i liên h c bi t trong d li c quan tr ng và t n nhi u th i gian nh t c a toàn quá trình KDD
u di n tri th c: Nh ng m u thông tin và m i liên h trong d li u
th ng kê cho mô hình d li
Analysis - EDA)
1.1.4 Các k thu t áp d ng trong khai phá d li u
vào các bài toán c n gi i quy t thì KPDL g m các k thu t sau [5]:
Phân l p và d báo: X p m ng vào m t trong nh ng l c
t o, Phân l p và d c g i là h c có giám sát
Lu t k t h p: Là d ng lu t bi u di n tri th c d n Ví d
n gi i vào siêu th n u mua ph n thì có t i 80% trong s h s t
k t h c ng d ng nhi c kinh doanh, y h c, tin-sinh, tài chính và
th ng ch ng khoán,
Trang 18Phân tích chu i theo th i gian t k t h
v c tài chính và th ng ch ng khoán vì nó có tính d báo cao
Phân c m: X ng theo t ng c m d li u t nhiên Phân c m còn
quan tr ng khác Vi c mô t t p trung vào tìm ki m các m i có th hi u
c v i các ng d ng h c máy và nh n d ng m c d báo
c a KDD g m [1]:
Mô t l p và khái ni m: D li u có th c k t h p trong l p và khái ni m Ví
d : trong kho d li u bán hàng thi t b tin h c, các l p m t hàng bao g m máy tính,
m khách hàng bao g m khách hàng mua s và khách mua l Vi c
hoá Mô t l p và khái ni c b t ngu n t li u và phân bi t d
li li u là quá trình t ng h p nh c tính ho c các thành ph n chung c a m t l p d li u m c tiêu Phân bi t d li u là so sánh l p d li u m c tiêu
v i nh ng l p d li i chi u khác L p d li u m c tiêu và các l i chi u là do
Phân tích s k t h p: Phân tích s k t h p là khám phá lu t k t h p th hi n m i
quan h gi a các thu c tính giá tr mà ta nh n bi c nh t n su t xu t hi n cùng nhau c a chúng
Phân l p và d báo: Phân l p là quá trình tìm ki m m t t p các mô hình ho c
ch và phân bi t nó v i các l p ho c khái ni m khác Các mô hình này nh m m h d báo v l p c a m t s ng Vi c xây d ng mô hình d a trên s phân tích m t t p các d li c hu n luy n có nhi u d ng th hi n mô hình
t phân l p (IF-THEN), cây quy nh, công th c toán h c hay m
nhiên trong nhi u ng d i ta mong mu n d ng giá tr khuy t thi u
Trang 19ng h p d c a d li u ki u s c khi phân l p và d báo, có th c n th c hi n phân tích thích h nh và lo i bcác thu c tính không tham gia vào quá trình phân l p và d báo.
ng d li t nhãn c a l p Nhìn chung, nhãn l p không t n t i trong
su t quá trình hu n luy n d li u, nó phân c m có th c s d
cu c là nhi u và lo i b chúng Tuy nhiên trong m t s ng d ng, ch ng h
theo th i gian Phân tích s ti n hoá có th bao g m c oá, phân bi t, tìm
lu t k t h p, phân l n th i gian, phân tích d li u theo chu i
th i gian, so sánh m u theo chu k và phân tích d li u d
Trang 21và nghiên c u cho t ng c m d li u này nh m khám phá và tìm ki m các thông tin
ti m n, h u ích ph c v cho vi c ra quy nh Ví d :
y, PCDL x là m lý thông tin quan tr ng và
ph bi n, nó nh m khám phá m i liên h gi a các m u d li u b ng cách t ch c chúng thành các c m [1]
- Xây d ng các tiêu chu n phân c m
- Xây d ng mô hình cho c u trúc c m d li u
- Xây d ng thu t toán phân c m và xác l u ki n kh i t o
- Xây d ng các th t c bi u di t qu phân c m
Trang 221.2.2 ng d ng c a phân c m d li u
PCDL là m t trong nh ng công c chính c c ng d ng trong nhi u
i và khoa h c Các k thu c áp d ng cho m t
Khai phá Web: PCDL có th khám phá các nhóm tài li u quan tr ng, có nhi u ý
ng Web Các l p tài li u này tr giúp cho vi c khám phá tri th c
t d li u Web, khám phá ra các m u truy c p c c bi t hay khám phá
ra c
1.2.3 Các yêu c i v i k thu t phân c m d li u
Vi c xây d ng, l a ch n m t thu t toán phân c c then ch t cho vi c gi i quy t v phân c m, s l a ch n này ph thu c tính d li u c n phân c m,
Thích nghi v i các ki u d li u khác nhau: Thu t toán có th áp d ng hi u qu
cho vi c phân c m các t p d li u v i nhi u ki u d li li u ki u
s , ki u nh phân, d li nh danh, h ng m c, và thích nghi v i ki u d li u h n
h p
Trang 23Khám phá ra các c m v i hình thù b t k : Do h u h t các CSDL có ch a nhi u
c các c m có tính t nhiên thì các thu t toán phân c m c n ph i có
T i thi ng tri th c c nh các tham s vào: Do các giá tr u vào
ng ng r t l n thu t toán phân c m và r t ph c t nh các giá
tr vào thích h i v i các CSDL l n
Ít nh y c m v i th t c a d li u vào: Cùng m t t p d li lý cho thu t toán PCDL v i các th t vào c ng d li u các l n th c hi n khác nhau thì không ng l n k t qu phân c m
Kh i d li u nhi u cao: H u h t các d li u phân c m trong
u ch ng các d li u l i, d li , d li u rác Thu t toán phân c m không nh ng hi u qu i v i các d li u nhi u mà còn tránh d n ch t
d ng các thu c tính c i các ki u thu c tính khác nhau là m t v
c n gi i quy i v i h u h t các t p d li u nh m cung c n thu n l i
nh n d ng s khác nhau c a các ph n t d li p d a trên hai
c mi n và h [2]
1.2.4.1 Phân lo i ki u d li u d c mi n
Thu c tính liên t c: N u mi n giá tr c a nó là vô h
gi a hai giá tr t n t i vô s giá tr khác Thí d c tính v màu, nhi
Trang 24Thu c tính kho ng (Interval Scale): V i thu c tính kho ng, chúng ta có th xác
nh m t thu c ho ng sau thu c tính khác v i m t kho ng là bao nhiêu N u xi> yithì ta nói x cách y m t kho ng ng v i thu c tính
th i
Thu c tính t l (Ratio Scale): là thu c tính kho c xác nh m t
i so v m m c, thí d c tính chi u cao ho c cân n ng l y
m 0 làm m c
Trong các thu c tính d li u trình bày trên, thu nh danh và thu c tính
có th t g i chung là thu c tính h ng m c (Categorical), thu c tính kho ng và thu c
Trang 25ph n t c a nó có th là nh ng b t k ng d li d
li c p trên c g i là m t không gian metric n u:
c g i là m t metric c a không gian Các ph n t c a
c g m c a không gian này
B ng 1-1: B ng tham s thu c tính nh phân
Trang 26: ng có thu u là nhphân.
là t ng s các giá tr thu c tính có giá tr là 1 trong x và 0 trong y.
là t ng s các giá tr thu c tính có giá tr là 0 trong x và 1 trong y.
là t ng s các giá tr thu c tính có giá tr là 0 trong x và y.
Các tr ng thái Mi c s p th t Mi], ta có th thay th m i giá tr
c a thu c tính b ng giá tr cùng lo i ri, v i ri Mi} M i m t thu c tính th t có các mi n giá tr khác nhau, vì v y ta chuy i chúng v cùng mi n giá tr [0,1] b ng cách th c hi n phép bi i sau cho m i thu c tính:
,v i i=1, ,M i
Trang 27S d ng công th c a thu c tính kho i v i các giá tr
c a thu c tính có th t
Thu c tính t l :
nh ng s d ng công th c tính logarit cho m i thu c tính xi, thí d qi = log(xi), lúc này qi c tính kho ng Phép bi i logarit này thích h p
ng h p các giá tr c a thu c tính là s
thu i v i các ki u d li u ho ng s cho cho t t c các thu c tính d li u Trong m t s ng h i ta lo i b a các thu c tính d li u b ng cách chu n hoá chúng ho c gán tr ng s cho m i thu c tính giá tr
l ch chu n Các tr ng s này có th s d ng cách trên, thí d v i m i thu c tính d li c gán tr ng s ng wi
.
Tóm l i, tu t ng h p d li u c th i ta s d ng các mô hình
m b o khách quan là r t quan tr ng và giúp xây d ng thu t toán PCDL có hi u qu
Khai phá d li u Web là vi c s d ng các k thu t ng hóa quá trình phát hi n và trích ch n nh ng thông tin h u ích t các tài li u, các thông tin d ch
v , h u trúc Website Hay nói cách khác khai phá Web là vi
dò nh ng thông tin quan tr ng và nh ng m u d li u ti n i dung Web, tthông tin truy c p Web, t liên k t trang và t ngu n tài n t
b ng vi c s d ng các k thu t KPDL, nó có th i rút ra tri th c, c i ti n
vi c thi t k các Website và phát tri n t t [1]
Tìm ki m ngu n tài nguyên: Th c hi n tìm ki m và l y các tài li u Web ph c v
cho vi c khai phá
L a ch n và ti n x lý d li u: L a ch n và ti n x lý t ng các lo i thông tin
Trang 28T ng h p: T ng khám phá các m u chung t i các Website riêng l cnhi u Website v i nhau
Trang 291.3.1 Các ki u d li u Web
:
ng c a khai phá Web bao g m[4] : Server logs, Web pages, Web
hyperlink structures, d li u th ng tr c tuy n và các thông tin khác
Web logs(d li p Web): i dùng duy t Web, d ch v s phân
ra 3 lo i d li p: sever logs(d li p trên server), error logs(d
li p l i), và cookie logs(thông s c a t i dùng truy c p Wepsite) Thông qua vi c phân tích các tài li p này ta có th khám phá ra nh ng thông tin truy c p
pages là theo chu n HTML
Web hyperlink structure: c liên k t v i nhau b ng các siêu liên k u này r t quan tr khai phá thông tin Do các siêu liên k t Web là ngu n tài nguyên r t xác th c
Liên k
D li u XML
n t do
Hình 1-3: Phân lo i d li u Web
Trang 301.3.2 X lý d li n ng d ng trong khai phá d li u Web
1.3.2.1 D li n
n là lo i tài li u ph bi c s d ng trong m i ho ng c a con
c bi ng truy n truy n thông s và trên Internet Do v y, các bài toán x lý lo i d li u này t ra t r t s m và hi n nay nó v n là v
- Không gian vector: là m t t p h p bao g m các t
- T : là m t chu i các ký t (ch cái và ch s ) Ngo i tr các kho ng
Trang 311.3.3.1 Lo i b t d ng
u t ch bi u di n c u trúc
xu t hi n nhi n mà không liên quan gì t i ch ho c n i dung c a
gi m s chi u c a vector trong bi u di n
v t n s xu t hi n cao c a m t s t (ti ng Anh) trong 336,310 tài li u g m t ng c ng 125.720.891 t , 508.209 t riêng bi t
Frequent Word
Number of Occurrences Percentage of
quá trình x
Trang 32ng nghiên c u và ng d ng trong khai phá
d li u là phân c m d li u, g m t ng quan v k thu t phân c m, các ng d ng c a phân c m, các yêu c i v i k thu t phân c m, các ki u d li
t ,
Trang 33M T S K THU T PHÂN C M D LI U
ng
[5]
2.1 Thu t toán k-means
a thu t toán k-means là sinh ra k c m d li u {C1, C2 k} t
m t t p d li u g ng trong không gian d chi u Xi =( , , ), i=(1,n), sao cho hàm tiêu chu n:
i là tr g tâm c a c m Ci, D là kho ng cách gi ng
trung bình c ng các thành ph ng c ng vector d li u trong c m
u vào c a thu t toán là s c m k, t p CSDL g m n ph n t và tham s u ra c a thu t toán là các tr ng tâm c a các c m d li ng cách
Trang 34Thu t toán k-means bao g