1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài toán khai thác thông tin về sản phẩm từ Web (Đồ án tốt nghiệp)

58 227 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 9,64 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ WebBài toán khai thác thông tin về sản phẩm từ Web

Trang 1

M C L C

1

DANH SÁCH CÁC HÌNH 3

6

8

8

9

11

11

12

12

15

17

1.7 17

19

19

20

21

21

21

22

24

24

28

31

35

35

36

36

37

38

39

43

43

49

51

52

53

53

53

54

55

3.5.5 Giao .56

56

57

Trang 2

58

Trang 3

DANH SÁCH CÁC HÌNH

c th c hi n trong quá trình khám phá tri th c 10

n Khám phá tri th c trong CSDL 11

kh i Kh i truy v n 13

kh m c 14

Hình2.1:Hình minh h a phân c m d li u 19

Hình2.2: Hình d ng c m d li c b i k-means 25

c s d ng b i thu t toán BIRCH 28

Hình 2.4:Các c m d li c khám phá b i CURE 30

Hình 2.5: Hình minh h a phân c m OPTICS 33

Hình 2.6:Hình minh h a DENCLUE v i hàm phân ph i Gaussian 34

Hình 3.1: Bi Use Case t ng quan 37

Hình 3.2: Bi ca s d p nh 39

Hình 3.3: Bi ca s d 39

Hình 3.4: Bi ca s d 41

Hình 3.5: Bi tu n t th c thi ca s d p nh t nhóm s n ph 44

Hình 3.6: Bi c ng tác th c thi ca s d p nh t nhóm s n ph 44

Hình 3.7: Bi tu n t th c thi ca s d p nh t lo is n ph 45

Hình 3.8: Bi c ng tác th c thi ca s d p nh t lo is n ph 45

Hình 3.9: Bi tu n t th c thi ca s d p nh t s n ph 46

Hình 3.10: Bi c ng tác th c thi ca s d p nh t s n ph 46

Hình 3.11: Bi tu n t th c thi ca s d p nh 47

Hình 3.12: Bi c ng tác th c thi ca s d p nh 47

Hình 3.13: Bi tu n t th c thi ca s d p nh t thông s tìm ki 48

Hình 3.14: Bi c ng tác th c thi ca s d p nh t thông s tìm ki 48

p nh 49

Hình 3.16: Bi tu n t th c thi ca s d 49

Hình 3.17: Bi c ng tác th c thi ca s d 50

50

Hình 3.19: Bi tu n t th c thi ca s d 51

Hình 3.20: Bi c ng tác th c thi ca s d 51

51

Hình 3.22: Mô hình l p thi t k h th ng 52

Hình 3.23 Giao di n chính c 53

Hình 3.24: Giao di n c p nh t s n ph m 53

Hình 3.25: Giao di n c p nh t lo i s n ph m 54

Hình 3.26: Giao di n c p nh t nhóm s n ph m 55

Trang 4

Hình 3.27: Giao di n tìm ki m thông tin s n ph m 56

Trang 5

DANH SÁCH B NG BI U

B ng 3.1: B nh các ch p v c a h th ng 36

B ng 3.2: B nh tác nhân c a h th ng 37

B ng 3.3: B ng mô t các ca s d ng và tác nhân 38

B ng 3.4: B ng mô t ca s d ng c p nh t nhóm s n ph m 39

B ng 3.5: B ng mô t ca s d ng c p nh t lo i s n ph m 40

B ng 3.6: B ng mô t ca s d ng c p nh t s n ph m 40

B ng 3.7: B ng mô t ca s d ng câp nh t Search Engine 41

B ng 3.8: B ng mô t ca s d ng c p nh t thông s tìm ki m 41

B ng 3.9: B ng mô t ca s d ng tìm ki m 42

B ng 3.10: B ng mô t ca s d ng báo cáo 43

Trang 6

GI I THI U

Web là kho tài nguyên d li u kh ng l , không ng ng v i t

Internet ch a nhi u thông tin có giá tr n c ng nói chung, và các

ho ng s n xu t kinh doanh nói riêng.Xu t phát t th c t , v

pháp nào? Chúng ta có th khai thác thông tin t ph c v cu c s ng

Hi n nay có nhi u công trình nghiên c

Internet

s n ph m thông qua các nh n xét c i dùng trên Internet? t bài toán khó c n k t h p nhi u ki n th c gi i

ph m t Khóa lu n t p trung tìm hi u các lý thuy t liên quan nh m ph n nào

M t h th ng t ng h p thông tin t

n s n ph m có th h tr các doanh nghi p có thêm

m t kênh thông tin v các s n ph m trên th ng H th c mô t

ph m mà h th ng khai thác, phân lo i, th c thông qua máy tìm ki m

vào và g i vào máy tìm ki tìm các Ý ki i dùng s n ph mho c Xu ng.

kê các thông tin c n thi t v s n ph m nh m nh n c a i tiêu dùng

i v i s n ph

ph m b ng các s li u theo chuyên môn.

Trang 7

5 Giao di n h th ng:H th ng có giao di n thân thi n, thu n l i

i qu n lý

t v trên, khóa lu c trình bày

Gi i thi u: Gi i thi u chung v bài toán và ph m vi c a khóa lu n.

lý thuy th c hi n khóa lu n.

Trình bày ph n phân tích thi t k m t ng d ng mang tính ch t th

nghi m.

K t lu n

Tài li u tham kh o

Trang 8

LÝ THUY T 1.1

c khai phá d li u, có nhi ng nghiên c u

t s c nhi u nhà nghiên c u quan tâm

Khai phá d li u n,Web, Trích ch n thông tin, Phân tích m ng xã h i,

k m, Phân tích d li u kinh t - tài chính, Khai phá d li u sinh h c,

y t

Khóa lu n n vi c tìm hi u và xây d ng h th ng th ng nh m khai thác thông tin các s n ph i tiêu

th là các trang web i tiêu dùng có mua, s d ng các s n ph m và h

tính ch t lý hóa tính, công d ng chính, giá thành, màu s c, hình dáng, c,

a s n ph m

Trang 9

Khai phá d li u c có liên quan n nhi u ngành khác nhau

th ng kê, h c máy, tính toán phân tán, d li u, thu t toán, mô hình hóa dli

M c tiêu c a khai phá d li u là khám phá tri th c t tr ra quy t

c h p này có th c chia thành m t s n [3][4]:

phá t các h th ng d li u (databases, data warehouses, data

u theo m t s tiêu chí nh nh

Trang 10

Ti n x lý d li u:B c này làm s ch d li u (x lý nh ng d li

th a, nhi u, v.v.), rút g n d li u (áp d ng các thu t toán l y m u, v.v.), r i r c hóa d li u K t qu là d li u s nh c rút g c r i r c hóa

li u v d ng chu giúp k thu t khai phá d li u c sau

Khai phá d li u: Áp d ng nh ng k thu t phân tích nh trích

ch n thông tin, nh ng m i liên h c bi t c a d li u c này r t quan tr ng và c n nhi u tài nguyên nh t c a toàn b quá trình khai phá trin th c

à bi u di n tri th c: Các m u tin và quan h gi a chúng

c rút trích c mã hóa và bi u di n theo d ng d quan sát th , cây, b ng bi u, lu t, v.v c này cung c p thông tin cho các nhà qu n tr ra quy nh

Hình 1.1:

Trang 11

1.3.1 Các k thu t ti p c n trong Khai phá d li u

Khai phá tri th c là m c liên ngành, bao g m: T ch c d li u, h c máy, trí tu nhân t o và các khoa h c khác, s k t h p này có th c di n t

c các thông tin v l p hay t p các ví d hu n luy n

H c n a giám sát: Là quá trình phân chia m t t p d li u thành các

l p d a trên m t t p nh các ví d hu n luy n và m t s các thông tin

Trang 12

t o (neural network), v.v Phân l p và d c g i là h c có giám sát.

Lu t k t h p (association rules): là d ng lu t bi u di n tri th d ng khá

n Ví d gi i vào siêu th n u ph n thì có t i 80%

c kinh doanh, y h c, tin-sinh, tài chính và th ng ch ng khoán, v.v

Phân tích chu i theo th i gian (sequential/ temporal patterns)

ng ti p c c ng d ng nhi u t c tài chính và th

ng ch ng khoán vì nó có tính d báo cao

d li u t nhiên Phân c m c g i là h c không có giám sát ( unsupervised learning)

Mô t khái ni m (concept description and summarization): thiên v mô

t , t ng h p và tóm t t khái ni m Ví d : tóm t n

1.3.2 Các d ng d li u có th khai phá

Do Khai phá d li u c ng d ng r ng rãi trên nhi c có th làm

vi c v i r t nhi u ki u d li u khác nhau Ví d : d li uquan h , d li u

1.4

Theo [th y1] máy tìm ki m là m t h th ng ph n m c xây d ng nh m

danh sách các trang Web lên quan v i yêu c i dùng

V n, m i k thu t t p trung vào máy tìm ki m (Searche engine) Hi n

nay trên th gi i có r t nhi u máy tìm ki n hình là Google, Bing, Yahoo ,và

m t s máy tìm ki m có cách th c hi n r c bi t không ch t qu tìm

ki a ch ch a thông tin mà tìm ki m và t ng h p tri th

Trang 13

Wolframanpha, máytìm ki m này còn bi t cách tr l i các v mang tính ch t

c 3: Khi có yêu c u tìm ki m thông tin, máy tìm ki m so kh p yêu c u v i

ki n trúc chung c a m t s kh i trong máy tìm ki m [2]

Kh i Truy v n

Hình 1.3

Kh i truy v n nh n thông tin t i dùng theo d n T

lo nh yêu c u c a câu truy v n xem thu

dùng

Trang 14

Kh i ánh ch m c

Hình1.4

Trong khóa lu n này máy tìm ki m Google c s d ng làm công c l y thông tin n sau s kh o sát k máy tìm ki m c a Google.

Tên g i c a máy tìm ki m Google có ngu n g c t ch t

th i gian không lâu máy tìm ki m này tr nên n i ti ng t t yêu c u

ph m c a h

Công ngh crawling có t cao khi thu th p tài li u và c p nh t chúng.

Trang 15

- Fields: Cho t tham s tìm ki m theo m t s a ch

URL, liên k t, mi n/site, ki u file,

Bài toán phânc m thông tinlà m t trong nh ng bài toán quan tr ng nh t trong

c khai phá d li u Phân c m d li u là d a vào các m c tiêu t c là c thcác tiêu chí phân c m t ng sinh ra các l p(c m) thông tin

Khi áp d ng các thu t toán phân c m d li u nh m m quan tr ng là khai phácác c u trúc c a m u d li t o ra các c m d li u t kho d li u

trích xu t các thông tin ti m n, có ích h tr ra quy nh

Ví d : Sau khi tìm ki n trên Internet v các thông tin s n ph m,

y, phân c m d li u là th c x lý thông tin nh m khám phá

m i liên h gi a các m u d li u b ng cách t ch c chúng thành các c m.Hi n nay, các k thu t phân c c ng d ng r ng rãi trong các ng d n

Trang 16

- m theo mô hìnhvà phân vùng (partitioning):

pháp th nh t t o ra các mô hình bi u di n các c hai ch

gi n là t p h p các ph n t d li u vào các c m

- Phân c nh và phân c m xác su t: Trong phân c m nh, m i

m t ph n t d li u (thông tin trên trang Web) ch ph thu c vào m t c m Có th

xem xét vi c gán thông tin d thu c c m i t m t giá tr trong m ng hai

chi u Z Boolean Zd,ilà l Trong phân c m xác su t m i ph n t d li u s có xác

su i v i m i c m Trong ng c nh này, Zd,i có giá tr là m t s th c

trongkho ng[0,1] T c là, giá tr trong b ng là m t ánh x z: S S [0, 1] và các

- Phân c m ph ng và phân c m phân c p: Phân c m ph ng ch n là chia t p d li u thành m t s t p con Còn phân c m phân c p t o ra m t cây phân

c p c a các c m Vi c phân ho ch có th th c hi n theo hai cách,a) cách th nh t

b u b ng vi c cho m i m u tin vào m t c m c a nó và ti n hành k t h p các

c m l i v n khi s các c m là phù h p, cách này c g i là phân c m

t i lên (bottom - up) b) Cách th hai b u b ng vi c khai báo các c m

t trên xu ng (top - y, có th xem xét k thu t phân c m bottom - up

c m mongmu n; k thu t phân c m top - down làm m n d n b ng cách gán các

m u tin vào các c c thi c K thu t bottom - up th ng ch

có th c dùng tr n m t t p nh các m kh i t o các c m nguyên th c khi ti n hành k thu t t trên xu ng

- Phân c m theo lô và phân c Trong phân theo lô, toàn b t p d

l y t ng ph n t d li u và c p nh t các c phân vào c m thích h p

Trong khóa lu n này, các m u tin c phân c m theo các tiêu chí

tìm ki ác tiêu chí tìm ki m bao g m tên s n ph m, các thu c tính c a

s n ph m Các s n ph c phân lo i theo lo i s n ph m Các lo i s n ph m

Trang 17

thu c m t nhóm s n ph c gán m nh(mã tìm ki m) nh m phân bi t các tiêu chí khác nhau, d dàng cho vi c phân c m.

D li u khai thác v c phân lo i theo các tiêu chí tìm ki m, các thông tin

t các trang web khi l y v mã phân bi t cho m i l n l y k t qu Các thông tin này c g n v i mã tìm ki m Các url chính xác c a t ng b n tin

thu n ti n cho vi c l y l i n i dung sau này

Ví d thông tin sau khi tìm ki m:

WebsiteID là mã c a trang Web ch a b n tin th a mãn tiêu chí tìm ki m có mã SearchID là 26 (ch a các t khóa v s n ph m các lo i bút bi) Thu c tính Url ch a

a ch c a Website có ch a thông tin v bút bi, Thu c tính Contentch

b n v thông tin các lo i bút b có trong Website Vanphongphamt2.com,

Trang 18

b ng các danh t và các thu c tính c c mô t b ng các tính t , tr ng t

Khi x c máy tìm ki m tr v , d a vào b t khóa tìm ki m

SearchKeystrong b ng SearchTable theo hình sau:

26

Bút + bi + ngo i + Giá + ti n + B n + R

D li c phân c m theo mã s n ph m ProductID = 10và các thu c tính

c a s n ph m này H th ng phân tích các thông tin r i phân c m chúng theo các

SearchKeys i v i s n ph m có mã ProductID = 10.

Trang 19

KHAI PHÁ VÀ T NG H P D LI U

n trình bày m t s ki n th n liên quan n th ng

kê và khai phá d li cách th c t ng h p thông tin t các m u

Trang 20

:

Trang 21

Sau

x,y,z là các D: x=(x1,x2, ,xk);y=(y1,y2, ,yk);z=(z1,z2, ,zk i,

thao

Trang 23

.sau:

Trang 24

2.5 TH

Có r t nhi u thu c áp d ng trong phân c m d li

ph n này khóa lu n trình bày m t s thu n, r n trong phân

c m d li u Các thu c chia thành các h thu t toán: H các thu t toán phân c m phân ho ch (Patitional), h các thu t toán phân c m phân c p (Hierachical), h các thu t toán phân c m d i và các thu c

: các thu t toán phân c m d a trên m , các thu t toán phân c m

d a

2.5.1 H các thu t toán phân ho ch

H các thu t toán phân c m phân ho ch bao g m các thu xu u

2.5.1.1 Thu t toán k-means

a thu t toán k-means là sinh ra k c m d li u {C1, C2 k}

t m t t p d li u ch ng trong không gian d chi u Xi= (xi1, xi2 id) (

trong c u vào c a thu t toán là s c m k, và tham s u ra

c a thu t toán là các tr ng tâm c a các c m d li ng cách D gi a các

ng d li c s d ng d ng là kho ng cách Euclide, b i

mô hình kho ng cách d l nh các c c tr t i thi u Hàm tiêu

Trang 25

ho m c i dùng Thu t toán k-means bao g n

Ch n k tr ng tâm {mj}kj=1 u trong không gian Rd (d là s chi u c a

d li u) Vi c l a ch n này có th là ng u nhiên ho c theo kinh nghi m

Trang 26

2.5.1.4 Thu t toán CLARANS

Maxneighbor, Numlocal

c

Trang 27

Maxneighbor

Input: O, k, dist, numlocal, and maxneighbor;

Trang 28

medoid

medoid

-2.5.2 Các thu t toán phân c m phân c p

2.5.2.1 Thu t toán BIRCH

BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) là

Cluster Features - CF

(CF-Hình 2.3:

Trang 29

g n nh t c a cây CF (nút lá c m con), sau khi chèn xong thì

t t c các nút tron c c p nh t thông tin N ng kích c a c m con

c m phân ho ch ch ng h th c hi n PCDL cho các nút lá c a cây

ng thu t toán BIRCH c minh h

ng d li u l c chèn vào cây CF, sau khi chèn h t

c cây CF kh i t o M c chèn vào nút lá

g n nh t t o thành c m con N ng kính c a c m con này l

c tách Khi m ng thích h c chèn vào nút lá, t t c các nút

tr t i g c c c c p nh t v i các thông tin c n thi t

2.N u cây CF hi n th b nh trong thì ti n hành cây d ng

vì v y vi c ch n m t giá tr l hoà nh p m t s các c m con thành m t c u này làm cho cây CF nh c này không c n yêu c u

b c d li u l i t m b o hi u ch nh cây d li u nh

Trang 30

3 Th c hi n phân c m: Các nút lá c ng th ng

áp d ng m t s k thu t phân c m thí d -means và t o ra m t kh i

2.5.2.2 Thu t toán CURE

Vi c ch n m t cách bi u di n cho các c m có th nâng cao ch ng phân

c m Thu t toán CURE (Clustering Using REpresentatives) là thu t toán s d ng

chi i lên (Bottom up) c a k thu t phân c m phân c p.CURE s d ng

b i CURE:

Hình 2.4:

Trang 31

áp d ng v i CSDL l n, CURE s d ng l y m u ng u nhiên và phân

ho ch M u d li nh ng u nhiên là phân ho u tiên, CURE ti n hành phân c m trên m i phân ho ch Quá trình này l p l c

phân c m Các hai thu t toán này có th x lý các ph n t ngo i lai t t

2.5.3 Các thu t toán phân c m d a trên m

Trang 32

2.5.3.1 Thu t toán DBSCAN

DBSCAN (Density - Based Spatial Clustering of Applications with noise

IF result.size >= MinPts THEN

FOR i FROM 1 TO result.size DO

resultP:= result.get(i);

IF resultP.ClId

IN {UNCLASSIFIED, NOISE} THEN

IF resultP.ClId = UNCLASSIFIED THEN

Trang 33

ELSE // all points in seeds are

density-// reachable from Point

2.5.3.2 Thu t toán OPTICS

t toán m r ng cho thu t toán DBSCAN, b ng cách gi m b t các tham s u vào OPTICS (Ordering Points To Identify the Clustering Structure)

Trang 34

2.5.3.3 Thu t toán DENCLUE

DENCLUE (DENsity - Based CLUstEring) là thu t toán PCDL d a trên m t

Chúng ta th y r ng, DENCLUE ph thu c nhi ng nhi u (Noise

toán h c v ng ch c

Có kh lý các ph n t ngo i lai

Cho phép khám phá ra các c m v i hình thù b t k ngay c i v i

ph c t p tính toán c a DENCLUE là O(nlogn) Các thu t toán d a trên

m không th c hi n k thu t phân m u trên t p d li ât toán

nhau gi a m c ng trong m u v i m c a toàn b d li u

Ngày đăng: 10/03/2018, 18:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w