Bài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ Web
Trang 1M C L C
1
DANH SÁCH CÁC HÌNH 3
6
8
8
9
11
11
12
12
15
17
1.7 17
19
19
20
21
21
21
22
24
24
28
31
35
35
36
36
37
38
39
43
43
49
51
52
53
53
53
54
55
3.5.5 Giao .56
56
57
Trang 258
Trang 3DANH SÁCH CÁC HÌNH
c th c hi n trong quá trình khám phá tri th c 10
n Khám phá tri th c trong CSDL 11
kh i Kh i truy v n 13
kh m c 14
Hình2.1:Hình minh h a phân c m d li u 19
Hình2.2: Hình d ng c m d li c b i k-means 25
c s d ng b i thu t toán BIRCH 28
Hình 2.4:Các c m d li c khám phá b i CURE 30
Hình 2.5: Hình minh h a phân c m OPTICS 33
Hình 2.6:Hình minh h a DENCLUE v i hàm phân ph i Gaussian 34
Hình 3.1: Bi Use Case t ng quan 37
Hình 3.2: Bi ca s d p nh 39
Hình 3.3: Bi ca s d 39
Hình 3.4: Bi ca s d 41
Hình 3.5: Bi tu n t th c thi ca s d p nh t nhóm s n ph 44
Hình 3.6: Bi c ng tác th c thi ca s d p nh t nhóm s n ph 44
Hình 3.7: Bi tu n t th c thi ca s d p nh t lo is n ph 45
Hình 3.8: Bi c ng tác th c thi ca s d p nh t lo is n ph 45
Hình 3.9: Bi tu n t th c thi ca s d p nh t s n ph 46
Hình 3.10: Bi c ng tác th c thi ca s d p nh t s n ph 46
Hình 3.11: Bi tu n t th c thi ca s d p nh 47
Hình 3.12: Bi c ng tác th c thi ca s d p nh 47
Hình 3.13: Bi tu n t th c thi ca s d p nh t thông s tìm ki 48
Hình 3.14: Bi c ng tác th c thi ca s d p nh t thông s tìm ki 48
p nh 49
Hình 3.16: Bi tu n t th c thi ca s d 49
Hình 3.17: Bi c ng tác th c thi ca s d 50
50
Hình 3.19: Bi tu n t th c thi ca s d 51
Hình 3.20: Bi c ng tác th c thi ca s d 51
51
Hình 3.22: Mô hình l p thi t k h th ng 52
Hình 3.23 Giao di n chính c 53
Hình 3.24: Giao di n c p nh t s n ph m 53
Hình 3.25: Giao di n c p nh t lo i s n ph m 54
Hình 3.26: Giao di n c p nh t nhóm s n ph m 55
Trang 4Hình 3.27: Giao di n tìm ki m thông tin s n ph m 56
Trang 5DANH SÁCH B NG BI U
B ng 3.1: B nh các ch p v c a h th ng 36
B ng 3.2: B nh tác nhân c a h th ng 37
B ng 3.3: B ng mô t các ca s d ng và tác nhân 38
B ng 3.4: B ng mô t ca s d ng c p nh t nhóm s n ph m 39
B ng 3.5: B ng mô t ca s d ng c p nh t lo i s n ph m 40
B ng 3.6: B ng mô t ca s d ng c p nh t s n ph m 40
B ng 3.7: B ng mô t ca s d ng câp nh t Search Engine 41
B ng 3.8: B ng mô t ca s d ng c p nh t thông s tìm ki m 41
B ng 3.9: B ng mô t ca s d ng tìm ki m 42
B ng 3.10: B ng mô t ca s d ng báo cáo 43
Trang 6GI I THI U
Web là kho tài nguyên d li u kh ng l , không ng ng v i t
Internet ch a nhi u thông tin có giá tr n c ng nói chung, và các
ho ng s n xu t kinh doanh nói riêng.Xu t phát t th c t , v
pháp nào? Chúng ta có th khai thác thông tin t ph c v cu c s ng
Hi n nay có nhi u công trình nghiên c
Internet
s n ph m thông qua các nh n xét c i dùng trên Internet? t bài toán khó c n k t h p nhi u ki n th c gi i
ph m t Khóa lu n t p trung tìm hi u các lý thuy t liên quan nh m ph n nào
M t h th ng t ng h p thông tin t
n s n ph m có th h tr các doanh nghi p có thêm
m t kênh thông tin v các s n ph m trên th ng H th c mô t
ph m mà h th ng khai thác, phân lo i, th c thông qua máy tìm ki m
vào và g i vào máy tìm ki tìm các Ý ki i dùng s n ph mho c Xu ng.
kê các thông tin c n thi t v s n ph m nh m nh n c a i tiêu dùng
i v i s n ph
ph m b ng các s li u theo chuyên môn.
Trang 75 Giao di n h th ng:H th ng có giao di n thân thi n, thu n l i
i qu n lý
t v trên, khóa lu c trình bày
Gi i thi u: Gi i thi u chung v bài toán và ph m vi c a khóa lu n.
lý thuy th c hi n khóa lu n.
Trình bày ph n phân tích thi t k m t ng d ng mang tính ch t th
nghi m.
K t lu n
Tài li u tham kh o
Trang 8LÝ THUY T 1.1
c khai phá d li u, có nhi ng nghiên c u
t s c nhi u nhà nghiên c u quan tâm
Khai phá d li u n,Web, Trích ch n thông tin, Phân tích m ng xã h i,
k m, Phân tích d li u kinh t - tài chính, Khai phá d li u sinh h c,
y t
Khóa lu n n vi c tìm hi u và xây d ng h th ng th ng nh m khai thác thông tin các s n ph i tiêu
th là các trang web i tiêu dùng có mua, s d ng các s n ph m và h
tính ch t lý hóa tính, công d ng chính, giá thành, màu s c, hình dáng, c,
a s n ph m
Trang 9Khai phá d li u c có liên quan n nhi u ngành khác nhau
th ng kê, h c máy, tính toán phân tán, d li u, thu t toán, mô hình hóa dli
M c tiêu c a khai phá d li u là khám phá tri th c t tr ra quy t
c h p này có th c chia thành m t s n [3][4]:
phá t các h th ng d li u (databases, data warehouses, data
u theo m t s tiêu chí nh nh
Trang 10Ti n x lý d li u:B c này làm s ch d li u (x lý nh ng d li
th a, nhi u, v.v.), rút g n d li u (áp d ng các thu t toán l y m u, v.v.), r i r c hóa d li u K t qu là d li u s nh c rút g c r i r c hóa
li u v d ng chu giúp k thu t khai phá d li u c sau
Khai phá d li u: Áp d ng nh ng k thu t phân tích nh trích
ch n thông tin, nh ng m i liên h c bi t c a d li u c này r t quan tr ng và c n nhi u tài nguyên nh t c a toàn b quá trình khai phá trin th c
à bi u di n tri th c: Các m u tin và quan h gi a chúng
c rút trích c mã hóa và bi u di n theo d ng d quan sát th , cây, b ng bi u, lu t, v.v c này cung c p thông tin cho các nhà qu n tr ra quy nh
Hình 1.1:
Trang 111.3.1 Các k thu t ti p c n trong Khai phá d li u
Khai phá tri th c là m c liên ngành, bao g m: T ch c d li u, h c máy, trí tu nhân t o và các khoa h c khác, s k t h p này có th c di n t
c các thông tin v l p hay t p các ví d hu n luy n
H c n a giám sát: Là quá trình phân chia m t t p d li u thành các
l p d a trên m t t p nh các ví d hu n luy n và m t s các thông tin
Trang 12t o (neural network), v.v Phân l p và d c g i là h c có giám sát.
Lu t k t h p (association rules): là d ng lu t bi u di n tri th d ng khá
n Ví d gi i vào siêu th n u ph n thì có t i 80%
c kinh doanh, y h c, tin-sinh, tài chính và th ng ch ng khoán, v.v
Phân tích chu i theo th i gian (sequential/ temporal patterns)
ng ti p c c ng d ng nhi u t c tài chính và th
ng ch ng khoán vì nó có tính d báo cao
d li u t nhiên Phân c m c g i là h c không có giám sát ( unsupervised learning)
Mô t khái ni m (concept description and summarization): thiên v mô
t , t ng h p và tóm t t khái ni m Ví d : tóm t n
1.3.2 Các d ng d li u có th khai phá
Do Khai phá d li u c ng d ng r ng rãi trên nhi c có th làm
vi c v i r t nhi u ki u d li u khác nhau Ví d : d li uquan h , d li u
1.4
Theo [th y1] máy tìm ki m là m t h th ng ph n m c xây d ng nh m
danh sách các trang Web lên quan v i yêu c i dùng
V n, m i k thu t t p trung vào máy tìm ki m (Searche engine) Hi n
nay trên th gi i có r t nhi u máy tìm ki n hình là Google, Bing, Yahoo ,và
m t s máy tìm ki m có cách th c hi n r c bi t không ch t qu tìm
ki a ch ch a thông tin mà tìm ki m và t ng h p tri th
Trang 13Wolframanpha, máytìm ki m này còn bi t cách tr l i các v mang tính ch t
c 3: Khi có yêu c u tìm ki m thông tin, máy tìm ki m so kh p yêu c u v i
ki n trúc chung c a m t s kh i trong máy tìm ki m [2]
Kh i Truy v n
Hình 1.3
Kh i truy v n nh n thông tin t i dùng theo d n T
lo nh yêu c u c a câu truy v n xem thu
dùng
Trang 14Kh i ánh ch m c
Hình1.4
Trong khóa lu n này máy tìm ki m Google c s d ng làm công c l y thông tin n sau s kh o sát k máy tìm ki m c a Google.
Tên g i c a máy tìm ki m Google có ngu n g c t ch t
th i gian không lâu máy tìm ki m này tr nên n i ti ng t t yêu c u
ph m c a h
Công ngh crawling có t cao khi thu th p tài li u và c p nh t chúng.
Trang 15- Fields: Cho t tham s tìm ki m theo m t s a ch
URL, liên k t, mi n/site, ki u file,
Bài toán phânc m thông tinlà m t trong nh ng bài toán quan tr ng nh t trong
c khai phá d li u Phân c m d li u là d a vào các m c tiêu t c là c thcác tiêu chí phân c m t ng sinh ra các l p(c m) thông tin
Khi áp d ng các thu t toán phân c m d li u nh m m quan tr ng là khai phácác c u trúc c a m u d li t o ra các c m d li u t kho d li u
trích xu t các thông tin ti m n, có ích h tr ra quy nh
Ví d : Sau khi tìm ki n trên Internet v các thông tin s n ph m,
y, phân c m d li u là th c x lý thông tin nh m khám phá
m i liên h gi a các m u d li u b ng cách t ch c chúng thành các c m.Hi n nay, các k thu t phân c c ng d ng r ng rãi trong các ng d n
Trang 16- m theo mô hìnhvà phân vùng (partitioning):
pháp th nh t t o ra các mô hình bi u di n các c hai ch
gi n là t p h p các ph n t d li u vào các c m
- Phân c nh và phân c m xác su t: Trong phân c m nh, m i
m t ph n t d li u (thông tin trên trang Web) ch ph thu c vào m t c m Có th
xem xét vi c gán thông tin d thu c c m i t m t giá tr trong m ng hai
chi u Z Boolean Zd,ilà l Trong phân c m xác su t m i ph n t d li u s có xác
su i v i m i c m Trong ng c nh này, Zd,i có giá tr là m t s th c
trongkho ng[0,1] T c là, giá tr trong b ng là m t ánh x z: S S [0, 1] và các
- Phân c m ph ng và phân c m phân c p: Phân c m ph ng ch n là chia t p d li u thành m t s t p con Còn phân c m phân c p t o ra m t cây phân
c p c a các c m Vi c phân ho ch có th th c hi n theo hai cách,a) cách th nh t
b u b ng vi c cho m i m u tin vào m t c m c a nó và ti n hành k t h p các
c m l i v n khi s các c m là phù h p, cách này c g i là phân c m
t i lên (bottom - up) b) Cách th hai b u b ng vi c khai báo các c m
t trên xu ng (top - y, có th xem xét k thu t phân c m bottom - up
c m mongmu n; k thu t phân c m top - down làm m n d n b ng cách gán các
m u tin vào các c c thi c K thu t bottom - up th ng ch
có th c dùng tr n m t t p nh các m kh i t o các c m nguyên th c khi ti n hành k thu t t trên xu ng
- Phân c m theo lô và phân c Trong phân theo lô, toàn b t p d
l y t ng ph n t d li u và c p nh t các c phân vào c m thích h p
Trong khóa lu n này, các m u tin c phân c m theo các tiêu chí
tìm ki ác tiêu chí tìm ki m bao g m tên s n ph m, các thu c tính c a
s n ph m Các s n ph c phân lo i theo lo i s n ph m Các lo i s n ph m
Trang 17thu c m t nhóm s n ph c gán m nh(mã tìm ki m) nh m phân bi t các tiêu chí khác nhau, d dàng cho vi c phân c m.
D li u khai thác v c phân lo i theo các tiêu chí tìm ki m, các thông tin
t các trang web khi l y v mã phân bi t cho m i l n l y k t qu Các thông tin này c g n v i mã tìm ki m Các url chính xác c a t ng b n tin
thu n ti n cho vi c l y l i n i dung sau này
Ví d thông tin sau khi tìm ki m:
WebsiteID là mã c a trang Web ch a b n tin th a mãn tiêu chí tìm ki m có mã SearchID là 26 (ch a các t khóa v s n ph m các lo i bút bi) Thu c tính Url ch a
a ch c a Website có ch a thông tin v bút bi, Thu c tính Contentch
b n v thông tin các lo i bút b có trong Website Vanphongphamt2.com,
Trang 18b ng các danh t và các thu c tính c c mô t b ng các tính t , tr ng t
Khi x c máy tìm ki m tr v , d a vào b t khóa tìm ki m
SearchKeystrong b ng SearchTable theo hình sau:
26
Bút + bi + ngo i + Giá + ti n + B n + R
D li c phân c m theo mã s n ph m ProductID = 10và các thu c tính
c a s n ph m này H th ng phân tích các thông tin r i phân c m chúng theo các
SearchKeys i v i s n ph m có mã ProductID = 10.
Trang 19KHAI PHÁ VÀ T NG H P D LI U
n trình bày m t s ki n th n liên quan n th ng
kê và khai phá d li cách th c t ng h p thông tin t các m u
Trang 20:
Trang 21Sau
x,y,z là các D: x=(x1,x2, ,xk);y=(y1,y2, ,yk);z=(z1,z2, ,zk i,
thao
Trang 23.sau:
Trang 242.5 TH
Có r t nhi u thu c áp d ng trong phân c m d li
ph n này khóa lu n trình bày m t s thu n, r n trong phân
c m d li u Các thu c chia thành các h thu t toán: H các thu t toán phân c m phân ho ch (Patitional), h các thu t toán phân c m phân c p (Hierachical), h các thu t toán phân c m d i và các thu c
: các thu t toán phân c m d a trên m , các thu t toán phân c m
d a
2.5.1 H các thu t toán phân ho ch
H các thu t toán phân c m phân ho ch bao g m các thu xu u
2.5.1.1 Thu t toán k-means
a thu t toán k-means là sinh ra k c m d li u {C1, C2 k}
t m t t p d li u ch ng trong không gian d chi u Xi= (xi1, xi2 id) (
trong c u vào c a thu t toán là s c m k, và tham s u ra
c a thu t toán là các tr ng tâm c a các c m d li ng cách D gi a các
ng d li c s d ng d ng là kho ng cách Euclide, b i
mô hình kho ng cách d l nh các c c tr t i thi u Hàm tiêu
Trang 25ho m c i dùng Thu t toán k-means bao g n
Ch n k tr ng tâm {mj}kj=1 u trong không gian Rd (d là s chi u c a
d li u) Vi c l a ch n này có th là ng u nhiên ho c theo kinh nghi m
Trang 262.5.1.4 Thu t toán CLARANS
Maxneighbor, Numlocal
c
Trang 27Maxneighbor
Input: O, k, dist, numlocal, and maxneighbor;
Trang 28medoid
medoid
-2.5.2 Các thu t toán phân c m phân c p
2.5.2.1 Thu t toán BIRCH
BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) là
Cluster Features - CF
(CF-Hình 2.3:
Trang 29g n nh t c a cây CF (nút lá c m con), sau khi chèn xong thì
t t c các nút tron c c p nh t thông tin N ng kích c a c m con
c m phân ho ch ch ng h th c hi n PCDL cho các nút lá c a cây
ng thu t toán BIRCH c minh h
ng d li u l c chèn vào cây CF, sau khi chèn h t
c cây CF kh i t o M c chèn vào nút lá
g n nh t t o thành c m con N ng kính c a c m con này l
c tách Khi m ng thích h c chèn vào nút lá, t t c các nút
tr t i g c c c c p nh t v i các thông tin c n thi t
2.N u cây CF hi n th b nh trong thì ti n hành cây d ng
vì v y vi c ch n m t giá tr l hoà nh p m t s các c m con thành m t c u này làm cho cây CF nh c này không c n yêu c u
b c d li u l i t m b o hi u ch nh cây d li u nh
Trang 303 Th c hi n phân c m: Các nút lá c ng th ng
áp d ng m t s k thu t phân c m thí d -means và t o ra m t kh i
2.5.2.2 Thu t toán CURE
Vi c ch n m t cách bi u di n cho các c m có th nâng cao ch ng phân
c m Thu t toán CURE (Clustering Using REpresentatives) là thu t toán s d ng
chi i lên (Bottom up) c a k thu t phân c m phân c p.CURE s d ng
b i CURE:
Hình 2.4:
Trang 31áp d ng v i CSDL l n, CURE s d ng l y m u ng u nhiên và phân
ho ch M u d li nh ng u nhiên là phân ho u tiên, CURE ti n hành phân c m trên m i phân ho ch Quá trình này l p l c
phân c m Các hai thu t toán này có th x lý các ph n t ngo i lai t t
2.5.3 Các thu t toán phân c m d a trên m
Trang 322.5.3.1 Thu t toán DBSCAN
DBSCAN (Density - Based Spatial Clustering of Applications with noise
IF result.size >= MinPts THEN
FOR i FROM 1 TO result.size DO
resultP:= result.get(i);
IF resultP.ClId
IN {UNCLASSIFIED, NOISE} THEN
IF resultP.ClId = UNCLASSIFIED THEN
Trang 33ELSE // all points in seeds are
density-// reachable from Point
2.5.3.2 Thu t toán OPTICS
t toán m r ng cho thu t toán DBSCAN, b ng cách gi m b t các tham s u vào OPTICS (Ordering Points To Identify the Clustering Structure)
Trang 342.5.3.3 Thu t toán DENCLUE
DENCLUE (DENsity - Based CLUstEring) là thu t toán PCDL d a trên m t
Chúng ta th y r ng, DENCLUE ph thu c nhi ng nhi u (Noise
toán h c v ng ch c
Có kh lý các ph n t ngo i lai
Cho phép khám phá ra các c m v i hình thù b t k ngay c i v i
ph c t p tính toán c a DENCLUE là O(nlogn) Các thu t toán d a trên
m không th c hi n k thu t phân m u trên t p d li ât toán
nhau gi a m c ng trong m u v i m c a toàn b d li u