1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu khai phá luật kết hợp mining association rules

54 208 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 647,64 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

đây ta có th nói... Trong nh ng tr ng... Gi s chúng ta có các thu c tính đ phân bi t các tình hu ng đang quan tâm.

Trang 1

I GI I THI U

Hi n nay d li u, thông tin và tri th c đang là tiêu đi m c a m t l nh

v c m i nghiên c u và ng d ng v phát hi n tri th c (Knoledge

Discovery) - KD và khai phá d li u (Data Mining) - KDD

Phát hi n tri th c: phát hi n tri th c trong các c s d li u là m t

quy trình nh n bi t các m u ho c các mô hình d li u v i các tính n ng:

h p th c, m i, kh ích và có th hi u đ c

hi n tri th c g m có các thu t toán khai thác d li u chuyên dùng d i

m t s quy đ nh v hi u qu tính toán ch p nh n đ c đ tìm ra các m u

ho c các mô hình trong d li u đang t n t i trong các c s d li u nh ng

v n còn b che khu t b i hàng núi d li u

Trong báo cáo này, chúng tôi xin trình bày m t s khái ni m Data

mining (ch ng II), Lu t k t h p (ch ng III), hai quá trình tìm lu t k t h p

là khám phá các t p ph bi n (ch ng IV) và khám phá lu t (ch ng V);

cài đ t th nghi m (ch ng VI), nh n xét, đánh giá, h ng phát tri n

(ch ng VII)

Trang 2

II T NG QUAN V DATA MINING

1 Khái ni m Data mining:

Ti n trình trong thu th p d li u s và công ngh l u tr d n đ n s

l n lên c a các CSDL đ s i u này đã xu t hi n trong t t c l nh v c t

d li u trong các ho t đ ng c a con ng i (nh d li u giao d ch th

tr ng, b n ghi vi c s d ng th tín d ng, thông tin v các cu c g i đi n

tho i, các th ng kê c a chính ph ) t i các d li u thu th p đ c t bên

ngoài (nh hình nh các thiên th , CSDL v phân t , ho c b n ghi y t )

Cùng v i s l n lên c a d li u là s l n lên c a m i quan tâm v các v n

đ v kh n ng sao l u d li u này, kh n ng trích rút t chúng các thông

tin có giá tr Môn khoa h c liên ngành liên quan đ n nhi m v này g i là

Data mining

Vi c đ nh ngh a m t khoa h c liên ngành luôn gây tranh cãi; các

nhà nghiên c u th ng không nh t trí v ph m vi chính xác và gi i h n v

l nh v c nghiên c u c a h V i suy ngh nh v y và ch p nh n r ng có

th nh ng ng i khác không đ ng tình v chi ti t, chúng ta s thông qua

môt đ nh ngh a riêng c a chúng ta v data mining nh sau:

Data mining (khai phá d li u) là s phân tích c a các t p d

tóm t t d li u theo các cách m i mà v a d hi u, v a h u ích cho

Các m i liên h và các tóm t t thu đ c thông qua khai phá d li u

th ng g i là các mô hình (models) ho c khuôn m u (patterns) Ví d nh

các ph ng trình tuy n tính, các lu t, các nhóm, các đ th , các c u trúc

cây, các khuôn m u l p l i theo th i gian

nh ngh a trên nh c đ n “d li u quan sát – observational data”,

đ i l p v i “d li u th c nghi m – experimental data” Khai phá d li u

th ng làm vi c trên d li u mà đã th c s đ c thu th p tr c đó cho

m c đích khác v i phân tích c a dataming (ch ng h n, chúng đ c thu

th p nh m c p nh t t t c các giao d ch trong m t ngân hàng) i u này

Trang 3

có ngh a r ng các m c tiêu c a khai phá d li u không đ c xác đ nh

trong chi n l c thu th p d li u i u này là m t trong nh ng cái đ phân

bi t Data mining v i th ng kê h c (statistics); đ i v i th ng kê, d li u

th ng đ c thu th p b i s d ng các chi n l c hi u qu đ tr l i các

câu h i xác đ nh tr c V i lý do này, khai phá d li u th ng đ c coi là

phân tích d li u th c p (“secondary”)

nh ngh a c ng đ c p đ n các t p d li u trong khai phá d li u

th ng là l n N u ch làm vi c trên t p d li u nh , chúng ta hoàn toàn

m i ch th o lu n phân tích d li u khám phá c đi n (classical exploratory

data analysis) nh công vi c c a các nhà th ng kê Khi đ i m t v i d li u

l n, các bài toán m i s n y sinh M t s bài toán thì liên quan đ n các

v n đ l u tr và truy c p d li u, m t s khác thì liên quan đ n các v n

đ c b n nh là làm th nào đ xác đ nh các đ i di n c a d li u, làm th

nào phân tích d li u trong th i gian ch p nh n đ c, làm th nào đ

quy t đ nh xem m t m i liên h ch đ n thu n là s xu t hi n ng u nhiên

không ph n ánh m t th c t nào c Thông th ng, d li u có s n ch bao

g m m t m u t m t t p đ y đ d li u; m c đích là khái quát hóa

(generalize) t m u đó cho toàn b t p d li u Ch ng h n chúng ta mong

mu n d đoán hành vi c a các khách hàng trong t ng lai, ho c d đoán

các tính ch t c a c u trúc proteins mà chúng ta ch a bao gi nhìn th y

tr c đó Nh ng khái quát hóa nh v y có th không th có đ c b ng

các cách ti p c n th ng kê chu n vì d li u th ng không ph i là các m u

“ng u nhiên” mà là “m u ti n l i” (“convenience samples”) ho c “m u c

h i” (“opportunity samples”) ôi khi chúng ta mu n tóm t t ho c nén m t

t p d li u l n theo m t cách sao cho k t qu là d h u, không có b t c

m t ý ni m nào c a khái quát hóa c V n đ nh v y s n y sinh, ch ng

h n, n u chúng ta đã hoàn thành d li u đi u tra dân s đ y đ c a m t

qu c gia, ho c m t CSDL g m hàng tri u giao d ch bán l

Các m i liên h và c u trúc tìm th y trong các t p d li u ph i là

m i, đi u đó là t t nhiên S có r t ít giá tr khi tìm ra các m i liên h đã

thiêt l p tr c (tr khi m c đính c a công vi c là xác nh n gi thuy t, xác

Trang 4

đ nh xem m t khuôn m u – pattern - t n t i trong m t t p d li u m i

không), ho c các m i liên h c n thi t (ví d nh t t c b nh nhân mang

thai là n ) Rõ ràng, tính m i ph i đ c đo m t cách t ng đ i đ i v i tri

th c đã có tr c (tri th c tiên nghi m) c a ng i s d ng Không may là

ch có m t vài gi i thu t khai phá d li u là đ c p đ n tri th c tiên nghi m

Nó v n là bài toán đang t n l i trong nghiên c u

Trong khi tính m i là m t tính ch t quan tr ng c a các m i liên h

chúng ta tìm ki m, nó v n không đ đ đánh giá m t m i liên h là có giá

tr C th , các m i liên h ph i có th hi u đ c Ví d các m i liên h

đ n gi n là d hi u h n các m i liên h ph c t p, và vì v y đ c a thich

h n

Data mining là l nh v c liên ngành: th ng kê h c (statistics), công

ngh c s d li u (database technology), h c máy (machine learning),

nh n d ng khuôn m u (pattern recognition), trí tu nhân t o (artificial

intelligence), và tr c quan hóa (visualization), t t c đ u có vai trò nh t

đ nh R t khó đ xác đ nh m t biên rõ ràng gi a các ngành này và biên

gi a m i trong chúng v i data mining

2 Quá trình khai phá tri th c và khai phá d li u

Khai phá d li u th ng đ c xác l p trong ng c nh r ng h n c a

“khám phá tri th c trong các c s d li u” (“knowledge discovery in

databases”, KDD) Thành ng này xu t phát t l nh v c trí tu nhân t o

(artificial intelligence, AI) Quá trình KDD liên quan đ n nhi u công đo n:

l a ch n d li u, ti n x lý d li u, chuy n d ng (transforming) chúng n u

c n thi t, th c hi n khai phá d li u đ trích ra khuôn m u và các m i liên

h , di n d ch và đánh giá khuôn m u và m i liên h tìm ra M t l n n a

các biên chính xác c a ph n khai phá d li u c a các quá trình trên là

không d dàng xác đ nh; ch ng h n, v i r t nhi u ng i thì chuy n d ng

d li u là m t ph n th c s c a khai phá d li u

Trang 5

Quá trình khai phá tri th c d li u g m các b c:

a Làm s ch d li u (Data Cleaning): Lo i b d li u nhi u và d

d Chuy n đ i d li u (Data Transformation): D li u đ c chuy n

đ i hay đ c h p nh t v d ng thích h p cho vi c khai phá

e Khai phá d li u (Data Mining): ây là m t ti n trình c t y u

trong đó các ph ng pháp thông minh đ c áp d ng nh m trích

Trang 6

Hình 1: Bi u di n quy trình khai phá tri th c

Quá trình x lý khai phá d li u b t đ u b ng cách xác đ nh chính

xác v n đ c n gi i quy t Sau đó s xác đ nh các d li u liên quan

dùng đ xây d ng gi i pháp

B c ti p theo là thu th p các d li u có liên quan và x lý chúng

thành d ng sao cho các gi i thu t khai phá d li u có th hi u đ c

V lý thuy t thì có v r t đ n gi n nh ng khi th c hi n thì đây th c s

sánh các giá tr hi n t i v i các giá tr tr c đó hay các giá tr mong

mu n), hay b ng tri th c (m i liên h gi a ph ng pháp tìm m i và

ph ng pháp c nh th nào).Th ng thì đ m i c a m u đ c đánh

giá b ng m t hàm logic hay m t hàm đo đ m i, đ b t ng c a m u

Ngoài ra, m u ph i có kh n ng s d ng ti m tàng Các m u sau khi

đ c x lý và di n gi i ph i d n đ n nh ng hành đ ng có ích nào đó

Trang 7

đ c đánh giá b ng m t hàm l i ích.M u khai thác ph i có giá tr đ i

v i các d li u m i v i đ chính xác nào đó

Hình 2: Bi u di n quy trình khai phá d li u

3 Các k thu t và ph ng pháp khai phá d li u

S r t ti n l i khi phân lo i khai phá d li u thành các ki u nhi m v ,

t ng ng v i m c tiêu khác nhau Phân lo i d i đây không ph i là duy

nh t, và vi c phân chia nh h n, thành các nhi m v m n h n là có th

3.1 Phân tích d li u khám phá (Exploratory Data Analysis –

EDA)

Nh cái tên đ t, m c đích đây đ n gi n là khám phá d li u

mà không có ý t ng rõ ràng nào v cái chúng ta tìm ki m i n

hình, các k thu t EDA là t ng tác và tr c quan, và có r t nhi u

ph ng pháp hi n th đ h a hi u qu đ i v i các t p d li u ít

Tìm ki m tri th c ánh giá m u tìm đ c

Trang 8

chi u và nh Khi s chi u (s các bi n, p) t ng, s tr nên r t khó

đ tr c quan đám mây các đi m trong không gian p chi u V i p l n

h n 3 ho c 4, các k thu t chi u nh là phân tích các thành ph n

chính đ sinh ra hình chi u ít m t mát thông tin c a d li u xu ng

không gian ít chi u h n là h u ích M t l ng l n d li u có th khó

tr c quan hi u qu , dù v y, các ký hi u c a thang (scale) và chi ti t

đi v i nhau gi i quy t đ c v n đ : các m u d li u v i đ phân gi i

th p h n có th đ c hi n th và tóm t t v i m t chi phí h p lý có

th b qua m t s chi ti t quan tr ng M t s ví d c a các ng d ng

EDA là:

- Becker, Erick and Wilks, 1995, đã mô t m t t p công c tr c

quan hi n th các khuôn m u m ng đi n tho i đ ng dài (trên 12.000 links)

M c tiêu c a m t mô hình mô t là mô t t t c d li u (ho c quá

trình sinh ra d li u) Các ví d c a các mô t nh v y bao g m các

mô hình cho phân b xác su t chung, c l ng hàm m t đ c a

d li u, phân ho ch không gian d li u p chi u thành các nhóm,

phân tích phân nhóm và phân đo n, và các mô hình mô t m i liên

h gi a các bi n (mô hình ph thu c) Trong phân tích phân đo n

ch ng h n, m c đích là đ nhóm các b n ghi t ng t , nh trong

vi c phân đo n th tr ng c a các CSDL th ng m i đây m c

đích là đ chia các b n ghi thành các nhóm sao cho các khách hàng

gi ng nhau đ c đ t trong cùng m t nhóm i u này cho phép các

nhà qu ng cáo, các nhân viên makerting qu ng bá m t cách hi u

qu nh m thu đ c t i u l i nhu n v i chi phí th p S nhóm đây

đ c ch n b i các nhà nghiên c u, không có s “đúng” i u này

đ i l p v i phân tích phân nhóm, đó m c đích là đ khám phá các

nhóm “t nhiên” t d li u, ví d nh d li u v khoa h c Xây d ng

mô hình mô t đã đ c s d ng trong nhi u cách:

Trang 9

- Phân đo n đã đ c s d ng trong makerting đ chia các

khách hàng thành các nhóm d a trên khuôn m u mua hàng

và d li u nhân kh u nh tu i, thu nh p, (Wedel and Kamakura, 1998)

- Phân tích phân nhóm đã đ c s d ng r ng rãi trong nghiên

c u tâm th n h c đ xây d ng các phân c p c a các bênh lý tâm th n Ch ng h n, Everitt, Gourlay and Kendel (1971) áp

d ng phân tích phân nhóm đ i v i m u các b nh nhân tâm

th n n i trú; h đã tìm ra r ng t t c b n phân tích đã s n sinh

ra m t nhóm bao g m ch y u các b nh phân “psychotic depression”

- Các k thu t phân nhóm đã đ c s d ng đ phân tích các

thay đ i khí h u dài h n trong vùng khí quy n phía trên bán

c u b c c a trái đ t Thay đ i này ch y u b i 3 khuôn m u

áp su t cùng xu t hi n đ c nh n di n t d li u ghi l i hàng ngày n m 1948 (xem Cheng and Wallace 1993, …)

(predictive modeling : classification and regression)

M c đích là đ xây d ng m t mô hình mà cho phép giá tr c a

m t bi n đ c d đoán t các giá tr đã bi t c a các bi n khác

Trong phân l p, bi n đ c d đoán có giá tr là ki u phân lo i, trong

khi đó trong h i qui, bi n c n d đoán là đ nh l ng Thành ng “d

đoán” đ c s d ng đây là s d ng chung Ch ng h n, khi chúng

ta mu n d đoán giá tr c a th tr ng c ph n m t ngày trong

t ng lai, ho c mu n d đoán con ng a nào s th ng trong m t

cu c đua, chúng c ng có th mu n xác đ nh chu n đoán c a m t

b nh nhân, ho c m c đ d v c a m t m i hàn M t s l n các

ph ng pháp đã đ c phát tri n trong th ng kê h c và h c máy đ

gi i quy t các bài toán xây d ng mô hình d đoán, và các công vi c

trong l nh v c này đã d n đ n m t b c ti n lý thuy t đáng k và

nh ng hi u bi t v các v n đ sâu c a suy di n S phân bi t chính

Trang 10

gi a vi c d đoán và vi c mô t là vi c d đoán có m t bi n m c

tiêu duy nh t (bi n c n d đoán) (ví d nh giá tr th tr ng, lo i

b nh, đ d v , ), trong khi các bài toán mô t không có m t bi n

nh v y làm trung tâm c a mô hình Các ví d c a các mô hình d

đoán là nh sau:

- H th ng SKICAT do JPL/Caltech phát tri n s d ng bi u di n

có c u trúc cây đ h c cây phân l p t t nh các chuyên gia trong vi c phân l p các ngôi sao và các ngân hà t m t vector

40 chi u đ có th phân tích và phân lo i (Fayyad, Djorgovski,

& Weir)

- Các nhà nghiên c u c a AT&T phát tri n m t h th ng đ l n

theo d u v t đ c đi m c a toàn b 350 tri u s đi n tho i khác nhau c a n c M (Corter, Pregibon 1998) Các k thu t

h i quy đ c s d ng đ xây d ng các mô hình có kh n ng

d đoán m t s đi n tho i là kinh doanh hay gia đình

3.4 Khám phá các khuôn m u và lu t (Discovering patterns

th ng xuyên xu t hi n trong các CSDL giao d ch Bài toán này đã

đ c đ tâm r t nhi u trong khai phá d li u và đã đ c gi i quy t

s d ng các công ngh gi i thu t d a trên các lu t k t h p

(association rules)

Trang 11

3.5 L y thông tin d a trên n i dung (Retrieval by content)

Ng i s d ng có m t khuôn m u và mu n tìm các khuôn m u

gi ng v y trong t p d li u Công vi c này đ c s d ng nhi u đ i

v i các t p d li u v n b n và hình nh V i v n b n, khuôn m u có

th là t p các t khóa (keywords) và ng i s d ng mong mu n tìm

các tài li u thích h p (các trang web) V i hình nh, ng i dùng có

- Tìm ki m tài li u trên Web trong h th ng Google

(www.google.com) c a Brin & Page (1998) S d ng thu t toán PageRank đ c đoán s liên quan c a các trang Web riêng l d a trên khuôn m u liên k t

- QBIC (Query by Image Content) là m t h th ng đ c phát

tri n b i các nhà nghiên c u IBM, cho phép ng i dùng tìm

ki m trong m t d li u l n các hình nh các m i liên quan

t ng quan v n i dung nh n d ng nh màu s c, b c c, thông tin v trí đi m nh (Có kh n ng xác đ nh nh đ c

ghép, x lý l i t các nh ch p)

M c dù n m nhi m v mô t trên là khác nhau, chúng có nhi u

thành ph n chung, ví d nh khái ni m gi ng nhau ho c kho ng cách

gi a hai vector d li u là c n chung cho c n m nhi m v Ho c khái ni m

các hàm cho đi m (s d ng đ đ nh giá m c đ phù h p c a m t mô hình

ho c khuôn m u đ i v i d li u) c ng là chung m c dù các hàm c th là

khác nhau đ i v i các nhi m v khác nhau Các c u trúc mô hình và khuôn

m u là c n ph i khác nhau v i các nhi m v khác nhau và c ng c n khác

nhau đ i v i các ki u d li u khác nhau

4 Các thành ph n c a gi i thu t data mining

Trang 12

ki m trên các c u trúc mô hình và khuôn m u

• Chi n l c qu n tr d li u: đi u khi n vi c truy c p d li u m t

cách hi u qu trong quá trình t i u tìm ki m

4.1 C u trúc mô hình hay khuôn m u (Model or patterns

structure)

Các ki u bi u di n đ c tìm ki m trong khai phá d li u có

th đ c đ c tr ng hóa theo nhi u cách M t trong đ c tr ng hóa là

s phân bi t gi a m t mô hình toàn c c và m t khuôn m u c c b

đây, m t mô hình toàn c c là m t tóm t t toàn c c c a t p

d li u Nó t o nên các m nh đ v b t k d li u nào trong không

gian đo đ y đ V m t hình h c, n u chúng ta xem xét các dòng

c a ma tr n d li u nh các vector p chi u (các đi m trong không

gian p chi u), mô hình có th t o nên m t m nh đ v b t k đi m

nào trong không gian này (và do v y b t k đ i t ng) Ch ng h n,

mô hình có th gán m t đi m cho m t nhóm ho c d đoán giá tr

c a m t s bi n khác Th m chí khi m t s s đo b thi u (ví d m t

s thành ph n c a vector p chi u ch a bi t), mô hình có th t o ra

m t s m nh đ v đ i t ng bi u di n b i vector (không đ y đ )

này

M t mô hình đ n gi n có th có d ng Y = aX + c, v i X và Y là các bi n và a, c là các tham s c a mô hình (các h ng s đ c xác

đ nh trong quá trình th c hi n khai phá d li u) đây ta có th nói

Trang 13

r ng d ng hàm c a mô hình là tuy n tính, do Y là m t hàm tuy n

tính c a X Vi c dùng các thành ng c a th ng kê thông th ng là

h i khác Trong th ng kê h c, m t mô hình là tuy n tính n u nó là

hàm tuy n tính đ i v i các tham s c a mô hình Chúng ta s c

g ng vi t rõ ràng d ng nào c a tuy n tính nào chúng ta mu n ám

ch , nh ng khi chúng ta th o lu n c u trúc c a mô hình, chúng ta s

xem tính tuy n tính đây nh các hàm c a các bi n ch không ph i

là hàm c a các tham s c a mô hình Vì v y, ch ng h n, c u trúc

mô hình

Y = a X2 + bX + c đ c coi là mô hình tuy n tính trong th ng kê h c

c đi n, nh ng d ng hàm c a mô hình liên h Y và X là không tuy n

tính (đa th c b c hai)

i l p v i b n ch t toàn c c c a mô hình, các c u trúc khuôn

m u t o ra các m nh đ ch v các vùng h n ch c a không gian

M t ví d là m nh đ xác su t đ n gi n có d ng

if X>x1 then prob (Y>y1) = p1

C u trúc này g m các ràng bu c trên các giá tr c a các bi n

X và Y, liên h theo d ng c a lu t xác su t Chúng ta có th mô t

m i liên h đó theo cách khác, nh xác su t đi u ki n sau v i cùng

ngh a

p(Y>y1 | X>x1) = p1

Ho c chúng ta có th chú ý r ng các l p b n ghi giao d ch c th

không trùng lên các đ nh và vùng lõm và xem xét chi ti t h n đ xem

lý do t i sao (công vi c này cho ngân hàng bi t đ c r ng có m t

vài tài kho n mà thu c v ng i đã ch t) Do v y, đ i l p v i các mô

hình (toàn c c), m t khuôn m u (c c b ) mô t m t c u trúc liên

quan đ n m t ph n t ng đ i nh c a d li u ho c không gian mà

d li u xu t hi n Có th m t s các b n ghi hành x theo m t cách

c th , và khuôn m u đ c tr ng hóa chúng Ví d , m t tìm ki m trên

m t CSDL giao d ch đ t hàng qua email có th b c l r ng khách

Trang 14

hàng mua t h p các m t hàng c th th ng mua t h p m t

khàng khác Ho c có th chúng ta nh n ra m t nhúm các b n ghi

“l ” (“outlying” records) mà r t khác v i đa s các b n ghi (nh ng cái

đ c xem là đám mây trung tâm trong không gian p chi u) Ví d

cu i cùng này minh h a r ng các mô hình toàn c c và các khuôn

m u c c b có th đôi khi đ c xem nh hai m t đ i l p nhau c a

m t đ ng xu dò tìm ra dáng v không thông th ng, chúng ta

c n m t mô t cho dáng v thông th ng Có m t s song song

đây đ i v i vai trò c a các chu n đoán trong phân tích th ng kê h c;

các ph ng pháp dò tìm khuôn m u c c b có các ng d ng trong

vi c tìm ra cái b t th ng, nh dò tìm l i trong các quá trình công

nghi p, dò tìm gian l n trong các tác nghi p c a ngân hàng và

th ng m i

Chú ý r ng các c u trúc mô hình và khuôn m u mô t trên

có các tham s k t h p v i chúng; a, b, c cho mô hình và x1, y1 và

p1 v i khuôn m u trong các ví d trên Nhìn chung, m t khi chúng ta

thi t l p đ c d ng c u trúc c n tìm ki m, ti p theo chúng ta s tìm

ra các tham s c a c u trúc t d li u có s n M t khi các tham s

đ c gán giá tr , chúng ta g i các mô hình c th , ch ng h n y = 3.2

x + 2.8, là mô hình khít v a v i d li u-“fitted model”, ho c đ n gi n

h n g i là mô hình (t ng t nh v y đ i v i khuôn m u) S phân

bi t gi a c u trúc mô hình (ho c c u trúc khuôn m u) v i mô hình

th c (ho c khuôn m u) là quan tr ng Các c u trúc bi u di n các

d ng hàm chung c a các mô hình (ho c khuôn m u), v i các giá tr

c a các tham s ch a bi t M t mô hình ho c khuôn m u c th có

các giá tr xác đ nh cho các tham s c a mô hình

S phân bi t gi a mô hình và khuôn m u là h u ích trong r t nhi u tình hu ng Dù v y, c ng nh vi c phân chia các loài sinh v t

thành các l p là đ thu n ti n cho hi u bi t c a con ng i, nó không

khó và nhanh, đôi khi là không rõ ràng khi xem m t c u trúc c th

nên xem là m t mô hình hay là m t khuôn m u Trong nh ng tr ng

Trang 15

h p nh v y, cách t t nh t không nên quá quan tâm xem cái nào là

ta không th nói m t mô hình này là t t h n mô hình kia, hay là

không bi t làm th nào đ ch n m t t p các giá tr t t cho các tham

s c a mô hình M t vài hàm đánh giá đã đ c s d ng cho m c

đích này: s có kh n ng x y ra, t ng các l i (sai s ) bình ph ng,

t l phân l p nh m (s d ng nhi u trong các bài toán phân l p có

giám sát) Ch ng h n, hàm đánh giá sai s bình ph ng đ c đ nh

ngh a nh sau

đây chúng ta d đoán cho n giá tr y(i), i=1,n, và các d đoán c a chúng ta cho chúng là các giá tr y^(i) (th ng là m t hàm

c a m t s giá tr c a các bi n khác và các tham s c a mô hình)

S thích h p v m t lý thuy t c a các tiêu chu n khác nhau

ph i đ c bi n t u b i tính th c t khi áp d ng chúng Mô hình

chúng ta xem xét t i u m t tiêu chu n có th là lý t ng đ i v i d

li u, nh ng n u c l ng (tìm ra) các tham s c a nó m t hàng

tháng tr i thì nó r t ít giá tr T ng t v y, m t hàm đánh giá mà r t

Trang 16

nh y c m v i nh ng thay đ i nh trong d li u có th là không m y

h u ích (l i ích c a nó s ph thu c vào các m c tiêu c a nghiên

c u) Ch ng h n, vi c thay đ i các giá tr c a vài tr ng h p ngo i

l d n đ n thay đ i l n trong giá tr c l ng c a m t s tham s

mô hình; m t t p d li u th ng đ c ch n ra t m t s t p d li u

có th có, và có th x y ra r ng trong các t p d li u khác, các

tr ng h p ngo i l này có giá tr khác V n đ t ng t nh v y

c n ph i tránh b i s d ng các ph ng pháp không tinh vi, ít nh y

c m v i các tr ng h p ngo i l này

search methods)

Hàm đánh giá là m t đ đo m c đ phù h p các khía c nh

c a d li u đ i v i các mô hình và khuôn m u đã đ xu t Thông

th ng các mô hình và khuôn m u này đ c mô t trong d ng m t

c u trúc, đôi khi v i các giá tr tham s ch a bi t M c đích c a t i

u hóa và tìm ki m là đ xác đ nh c u trúc ho c các giá tr c a tham

s mà làm t i thi u (ho c t i đa, d a trên ng c nh) giá tr hàm đánh

giá Nhi m v tìm ra các giá tr “t t nh t” c a các tham s trong các

mô hình đ c xem nh là bài toán t i u (ho c c l ng) Nhi m

v tìm ra các khuôn m u thú v (nh các lu t ch ng h n) t m t t p

l n các khuôn m u ti m n đ c coi là bài toán tìm ki m t h p, và

th ng s d ng các k thu t tìm ki m heuristic Trong h i qui tuy n

tính, m t lu t d đoán th ng đ c tìm ra b i tìm t i thi u m t hàm

đánh giá các bình ph ng nh nh t (t ng các sai s bình ph ng

gi a giá tr d đoán c a mô hình và giá tr quan sát c a bi n d

đoán) Hàm đánh giá nh v y là s d ng các phép tính toán h c, và

mô hình t i thi u hàm này có th tìm ra b ng ph ng pháp đ i s

Ng c l i, m t hàm đánh giá nh là t l phân l p nh m trong phân

l p có giám sát là khó tìm ra t i thi u b ng ph ng pháp gi i tích Ví

d , do nó là không liên t c, các công c v phép tính đ o hàm không

đ c áp d ng đây

Trang 17

T t nhiên, trong khi chúng ta tìm các hàm đánh giá đ sinh ra

m t đ i sánh t t gi a m t mô hình ho c khuôn m u và d li u, trong

nhi u tr ng h p, đi u này không là m c tiêu Nh đã chú ý trên,

chúng ta th ng h ng đ n khái quát hóa đ i v i d li u m i, vi c

tìm ra m t đ i sánh quá t t v i d li u đã bi t th ng d n đ n mô

hình cho k t qu không chính xác khi d đoán d li u m i

strategies)

Thành ph n cu i cùng trong b t k m t gi i thu t khai phá d

li u là chi n l c qu n tr d li u: các cách l u tr , ch s và truy

c p d li u Các gi i thu t phân tích d li u đ c bi t đ n nhi u

nh t trong th ng kê h c và h c máy đã đ c phát tri n d i gi

thuy t r ng t t c các đi m d li u c th có th đ c truy c p m t

cách nhanh chóng và hi u qu trong b nh truy c p ng u nhiên

(RAM) Trong khi công ngh b nh chính đã đ c c i ti n nhanh

chóng, các công ngh l u tr th c p (đ a) và tam c p (b ng) đã

đ c c i ti n v i t c đ nhanh nh nhau, v i m c đ mà nhi u t p

d li u l n v n n m ch y u trong đ a ho c b ng và không v a

trong RAM có s n Do v y, thông th ng s có m t giá ph i tr khi

mu n truy c p các t p d li u l n do t t c các đi m d li u không

th cùng lúc đ t g n b x lý c a máy tính

Nhi u gi i thu t phân tích d li u đã đ c phát tri n mà không đ c p đ n đ c t t ng minh m t chi n l c qu n tr d li u

nào do nó làm vi c trên các t p d li u nh (ví d gi i th t cây h i

qui và phân l p) Nh ng chúng th ng th t b i khi áp d ng tr c ti p

Trang 18

đã đ c phát tri n đ h tr các phép tính, thao tác đ m t ng đ i

đ n gi n trên các t p d li u l n v i các m c đích làm báo cáo Dù

v y, trong nh ng n m g n đây, s phát tri n đã b t đ u v i các

công ngh mà h tr các thao tác truy c p d li u “nguyên th y” đ

th c hi n các ki u hi u qu c a các gi i thu t khai phá d li u

(ch ng h n các h th ng đánh ch s có c u trúc cây đ c s d ng

đ tìm l i đ c các láng gi ng c a m t đi m trong nhi u chi u)

5 Nh ng thách th c trong ng d ng và nghiên c u k thu t

trong data mining

đây chúng tôi đ a ra m t s khó kh n trong vi c nghiên c u và

ng d ng k thu t khai phá d li u.Tuy nhiên, th không có ngh a là vi c

gi i quy t là hoàn toàn b t c mà ch mu n nêu lên r ng đ khai phá d

li u không ph i là đ n gi n, mà ph i xem xét c ng nh tìm cách gi i quy t

nh ng v n đ này Chúng tôi có th li t kê m t s khó kh n nh sau:

5.1 Các v n đ v c s d li u

u vài ch y u c a m t h th ng khai thác tri th c là các d li u

thô trong c s d li u Nh ng v n đ khó kh n phát sunh trong khai phá

d li u chính là t đây Do các d li u trong th c t th ng đ ng, không

đ y đ , l n, và b nhi u Trong nh ng tr ng h p khác, ng i ta không

bi t c s d li u có ch a các thông tin c n thi t cho vi c khai thác hay

không và làm th nào đ gi i quy t v i s d th a nh ng thông tin thích

Trang 19

n t dung c a chúng thay đ i liên t c D li u có th thay đ i theo

th o gian và vi c khai phá d li u c ng b nh h ng b i th i đi m

quan sát d li u Ví d trong c s d li u v tình tr ng b nh nhân,

m t s giá tr d li u là h ng s , m t s khác l i thay đ i liên t c

theo th i gian (ví d cân n ng và chi u cao), m t s khác l i thay đ i

tu thu c vào tình hu ng và ch có giá tr đ c quan sát m i nh t (ví

d nh p đ p c a m ch) Vi c thay đ i d li u nhanh chóng có th

làm cho các m u khai thác đ c tr c đó m t giá tr H n n a, các

bi n trong c s d li u c a ng d ng đã cho c ng có th b thay

đ i, b xoá hay là t ng lên theo th i gian V n đ này đ c gi i quy t

thích h p v i tr ng tâm hi n t i c a vi c khai thác M t khía c nh

khác, đôi khi c ng liên quan đ n đ phù h p là tính ng d ng c a

m t thu c tính đ i v i m t t p con c a c s d li u Ví d tr ng

s tài kho n không áp d ng cho các tác nhân

e Các giá tr b thi u: S có m t hay v ng m t c a giá tr các thu c

tính d li u phù h p có th nh h ng đ n vi c khai phá d li u

Trong h th ng t ng tác, s thi u v ng d li u quan tr ng có th

Trang 20

d n đ n yêu c u cho giá tr c a nó hay ki m tra đ xác đ nh giá tr

c a nó Ho c c ng có th s v ng m t c a d li u đ c coi nh

m t đi u ki n, thu c tính b m t có th coi nh m t giá tr trung gian

và là giá tr không bi t

f Các tr ng b thi u: M t quan sát không đ y đ c s d li u có

th làm cho các d li u có giá tr b xem nh l i Vi c quan sát c s

d li u ph i phát hi n đ c toàn b các thu c tính có th dùng đ

gi i thu t khai phá d li u có th áp d ng nh m gi i quy t bài toán

Gi s chúng ta có các thu c tính đ phân bi t các tình hu ng đang

quan tâm N u chúng không làm đ c đi u đó thì có ngh a là đã l i

trong d li u i v i m t h th ng h c đ chu n đoán b nh s t rét

t m t c s d li u b nh nhân thì tr ng h p các b n ghi c a

b nh nhân có các tri u ch ng gi ng nhau nh ng l i có các chu n

đoán khác nhau là do d li u đã b l i ây c ng là v n đ th ng

x y ra trong c s d li u kinh doanh Các thu c tính quan tr ng có

th b thi u n u d li u không đ c chu n b cho vi c khai phá d

li u

g nhi u và không ch c ch n: i v i các thu c tính đã thích h p,

đ nghiêm tr ng c a l i ph thu c vào ki u d li u c a giá tr cho

phép, Các giá tr c a các thu c tính khác nhau có th là các s th c,

s nguyên, chu i và có th thu c vào t p các giá tr đ nh danh Các

giá tr đ nh danh này có th s p x p theo th t t ng ph n hay đ y

đ , th m chí có th có c u trúc ng ngh a M t y u t khác c a đ

không ch c ch n chính là tính k th a hay đ chính xác mà d li u

c n có, nói cách khác là đ nhi u c a d li u D a trên vi c tính

toán trên các phép đo và phân tích có u tiên, mô hình th ng kê tính

ng u nhiên đ c t o ra và đ c s d ng đ đ nh ngh a đ mong

mu n và đ dung sai c a d li u Th ng thì các mô hình th ng kê

đ c áp d ng theo cách đ c bi t đ xác đ nh m t cách ch quan

các thu c tính đ đ t đ c các th ng kê và đánh giá kh n ng ch p

nh n c a các (hay t h p các) giá tr thu c tính c bi t là v i d

Trang 21

li u ki u s , s đúng đ n c a d li u có th là m t y u t trong vi c

khai phá Ví d nh trong nhi t đ c th , ta th ng cho phép chênh

l ch 0,1 đ Nh ng vi c phân tích theo xu h ng nh y c m nhi t đ

c a c th l i có th yêu c u đ chính xác cao h n m t h

th ng khai thác có th liên h đ n xu h ng này đ chu n đoán thì

l i c n có m t đ nhi u trong d li u đ u vào

h M i quan h ph c t p gi a các tr ng : Các thu c tính hay các

giá tr có c u trúc phân c p, các m i quan h gi a các thu c tính vàv

các ph ng ti n ph c t p đ di n t tri th c v n i dung c a c s

d li u yêu c u các gi i thu t ph i có kh n ng s d ng m t cách

hi u qu các thông tin này Ban đ u, k thu t khai phá d li u ch

đ c phát tri n cho các b n ghi có các giá tr thu c tính đ n gi n

Tuy nhiên, ngày nay ng i ta đang tìm cách phát tri n các k thu t

nh m rút ra các m i quan h gi a các bi n này

5.2 Các v n đ v khác

a Quá phù h p (Overfitting): Khi m t gi i thu t tìm ki m các tham s

t t nh t cho m t mô hình d li u nào đó s d ng m t t p d li u h u

b ánh giá t m quan tr ng th ng kê: V n đ (liên quan đ n

overfitting) x y ra khi m t h th ng tìm ki m qua nhi u mô hình Ví d

m t h th ng ki m tra N mô hình m c đ quan tr ng 0,001 thì v i d

li u ng u nhiên trung bình s có N/1000 mô hình đ c ch p nh n là

quan tr ng x lý v n đ này, ta có th s d ng ph ng pháp đi u

Trang 22

ch nh th ng kê trong ki m tra nh m t hàm tìm ki m, ví d nh đi u

Trang 23

III LU T K T H P

T khi nó đ c gi i thi u t n m 1992 bài toán khai thác lu t k t h p

nh n đ c r t nhi u s quan tâm c a nhi u nhà khoa h c Ý t ng c a

vi c khai thác các lu t k t h p có ngu n g c t vi c phân tích d li u mua

H n n a, lu t k t h p không ch b gi i h n trong phân tích s ph

thu c l n nhau trong ph m vi các ng d ng bán l mà chúng còn đ c áp

d ng thành công trong r t nhi u bài toán khác

Trang 24

h tr cho bi t m c đ ph bi n c a lu t

support(X ⇒ Y [s,c]) = P(X U Y) = support({X,Y})

tin c y (confidence) c a lu t k t h p X ⇒ Y[s,c]

Bi u th s ph n tr m giao tác có ch a luôn Y trong s nh ng giao

h tr và đ tin c y đ c ký hi u là minsup và mincof

Ví d : Khi phân tích gi hàng c a ng i mua hàng trong m t siêu

th ta có đ c lu t ki u nh : khách hàng mua s a thì kh n ng 80%

c ng mua bánh mì và có 30% mua c hai th

Trong đó “mua s a ” là ti n đ còn “mua bánh mì ” là k t lu n c a

lu t Con s 30% là đ h tr c a lu t còn 80% là đ tin c y c a

lu t

Chúng ta nh n th y r ng tri th c đem l i b i lu t k t h p d ng trên

có s khác bi t r t nhi u so v i thông tin thu đ c t các câu l nh

truy v n d li u thông th ng nh SQL ó là nh ng tri th c, nh ng

m i liên h ch a bi t tr c và mang tính d báo đang ti m n trong

d li u Nh ng tri th c này không đ n gi n là k t qu c a phép

nhóm, tính t ng hay s p x p mà là c a m t quá trình tính toán khá

ph c t p

Trang 25

Hình 3: Không gian tìm ki m t p ph bi n 5 thu c tính

Tuy nhiên, v n còn t n t i nhi u thách th c và khó kh n trong khai

AB

ABC

Trang 26

- Thông tin khoa h c

- Thông tin cá nhân…

4 M t s h ng ti p c n trong khai phá lu t k t h p

L nh v c khai thác lu t k t h p cho đ n nay đã đ c nghiên c u và

phát tri n theo nhi u h ng khác nhau Có nh ng đ xu t nh m c i ti n

thu t toán, có đ xu t tìm ki m nh ng lu t có ý ngh a h n và có m t s

h ng chính sau đây :

¬ Lu t k t h p nh phân (binary association rules)

Lu t k t h p nh phân là h ng nghiên c u đ u tiên c a lu t k t

h p Theo d ng lu t k t h p này thì các items ch đ c quan tâm là

Trang 27

có hay không xu t hi n trong c s d li u giao tác ch không quan

tâm v m c đ hay t n xu t xu t hi n Thu t toán tiêu bi u nh t c a

khai phá d ng lu t này là thu t toán Apriori s đ c trong các

ch ng ti p theo

¬ Lu t k t h p có thu c tính s và thu c tính h ng m c

(quantitative and categorial association rules)

Các c s d li u th c t th ng có các thu c tính đa d ng Các

thu c tính này có th d ng s l ng (quantitative) hay d ng phân

lo i (categorial) khai phá lu t k t h p v i các c s d li u này,

các nhà nghiên c u đ xu t m t s ph ng pháp r i r c hoá nh m

chuy n d ng lu t này v d ng nh phân đ có th áp d ng các thu t

toán đã có

¬ Lu t k t h p ti p c n theo h ng t p thô (mining association

rules base on rough set)

tìm ki m lu t k t h p d a trên lí thuy t t p thô

¬ Lu t k t h p nhi u m c (multiple-level association rules)

V i cách ti p c n lu t k t h p th này s tìm ki m thêm nh ng lu t

có d ng : mua máy tính PC⇒ mua h đi u hành Window AND mua

ph n m m v n phòng Microsoft Office,…

¬ Lu t k t h p m (fuzzy association rules)

V i nh ng khó kh n g p ph i khi r i r c hoá các thu c tính s , các

nhà nghiên c u đ xu t lu t k t h p m kh c ph c h n ch đó và

chuy n lu t k t h p v m t d ng g n g i h n

¬ Lu t k t h p v i thu c tính đ c đánh tr ng s (association

rules with weighted items)

Các thu c tính trong c s d li u th ng không có vai trò nh

nhau Có m t s thu c tính quan tr ng và đ c chú tr ng h n các

thu c tính khác Vì v y trong quá trình tìm ki m lu t các thu c tính

đ c đánh tr ng s theo m c đ xác đ nh nào đó Nh v y ta thu

đ c nh ng lu t “hi m” (t c là có đ h tr th p nh ng mang nhi u ý

ngh a )

Ngày đăng: 19/12/2015, 17:08

HÌNH ẢNH LIÊN QUAN

Hình 1: Bi u di n quy trình khai phá tri th c - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 1 Bi u di n quy trình khai phá tri th c (Trang 6)
Hình 2: Bi u di n quy trình khai phá d  li u - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 2 Bi u di n quy trình khai phá d li u (Trang 7)
Hình 3: Không gian tìm ki m t p ph  bi n 5 thu c tính - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 3 Không gian tìm ki m t p ph bi n 5 thu c tính (Trang 25)
Hình 4: Thu t toán Apriori - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 4 Thu t toán Apriori (Trang 30)
Hình 5: Thu t toán hàm apriori-gen - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 5 Thu t toán hàm apriori-gen (Trang 31)
Hình 6: Ví d  thu t toán Apriori - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 6 Ví d thu t toán Apriori (Trang 32)
Hình 8: Thu t toán Apriori-Tid - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 8 Thu t toán Apriori-Tid (Trang 34)
Hình 9: Ví d  thu t toán Apriori-Tid - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 9 Ví d thu t toán Apriori-Tid (Trang 35)
Hình 10: Thu t toán Simple Algorithm - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 10 Thu t toán Simple Algorithm (Trang 40)
Hình 11: Thu t toán Faster Algorithm - Tìm hiểu khai phá luật kết hợp mining association rules
Hình 11 Thu t toán Faster Algorithm (Trang 41)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w