đây ta có th nói... Trong nh ng tr ng... Gi s chúng ta có các thu c tính đ phân bi t các tình hu ng đang quan tâm.
Trang 1I GI I THI U
Hi n nay d li u, thông tin và tri th c đang là tiêu đi m c a m t l nh
v c m i nghiên c u và ng d ng v phát hi n tri th c (Knoledge
Discovery) - KD và khai phá d li u (Data Mining) - KDD
Phát hi n tri th c: phát hi n tri th c trong các c s d li u là m t
quy trình nh n bi t các m u ho c các mô hình d li u v i các tính n ng:
h p th c, m i, kh ích và có th hi u đ c
hi n tri th c g m có các thu t toán khai thác d li u chuyên dùng d i
m t s quy đ nh v hi u qu tính toán ch p nh n đ c đ tìm ra các m u
ho c các mô hình trong d li u đang t n t i trong các c s d li u nh ng
v n còn b che khu t b i hàng núi d li u
Trong báo cáo này, chúng tôi xin trình bày m t s khái ni m Data
mining (ch ng II), Lu t k t h p (ch ng III), hai quá trình tìm lu t k t h p
là khám phá các t p ph bi n (ch ng IV) và khám phá lu t (ch ng V);
cài đ t th nghi m (ch ng VI), nh n xét, đánh giá, h ng phát tri n
(ch ng VII)
Trang 2II T NG QUAN V DATA MINING
1 Khái ni m Data mining:
Ti n trình trong thu th p d li u s và công ngh l u tr d n đ n s
l n lên c a các CSDL đ s i u này đã xu t hi n trong t t c l nh v c t
d li u trong các ho t đ ng c a con ng i (nh d li u giao d ch th
tr ng, b n ghi vi c s d ng th tín d ng, thông tin v các cu c g i đi n
tho i, các th ng kê c a chính ph ) t i các d li u thu th p đ c t bên
ngoài (nh hình nh các thiên th , CSDL v phân t , ho c b n ghi y t )
Cùng v i s l n lên c a d li u là s l n lên c a m i quan tâm v các v n
đ v kh n ng sao l u d li u này, kh n ng trích rút t chúng các thông
tin có giá tr Môn khoa h c liên ngành liên quan đ n nhi m v này g i là
Data mining
Vi c đ nh ngh a m t khoa h c liên ngành luôn gây tranh cãi; các
nhà nghiên c u th ng không nh t trí v ph m vi chính xác và gi i h n v
l nh v c nghiên c u c a h V i suy ngh nh v y và ch p nh n r ng có
th nh ng ng i khác không đ ng tình v chi ti t, chúng ta s thông qua
môt đ nh ngh a riêng c a chúng ta v data mining nh sau:
Data mining (khai phá d li u) là s phân tích c a các t p d
tóm t t d li u theo các cách m i mà v a d hi u, v a h u ích cho
Các m i liên h và các tóm t t thu đ c thông qua khai phá d li u
th ng g i là các mô hình (models) ho c khuôn m u (patterns) Ví d nh
các ph ng trình tuy n tính, các lu t, các nhóm, các đ th , các c u trúc
cây, các khuôn m u l p l i theo th i gian
nh ngh a trên nh c đ n “d li u quan sát – observational data”,
đ i l p v i “d li u th c nghi m – experimental data” Khai phá d li u
th ng làm vi c trên d li u mà đã th c s đ c thu th p tr c đó cho
m c đích khác v i phân tích c a dataming (ch ng h n, chúng đ c thu
th p nh m c p nh t t t c các giao d ch trong m t ngân hàng) i u này
Trang 3có ngh a r ng các m c tiêu c a khai phá d li u không đ c xác đ nh
trong chi n l c thu th p d li u i u này là m t trong nh ng cái đ phân
bi t Data mining v i th ng kê h c (statistics); đ i v i th ng kê, d li u
th ng đ c thu th p b i s d ng các chi n l c hi u qu đ tr l i các
câu h i xác đ nh tr c V i lý do này, khai phá d li u th ng đ c coi là
phân tích d li u th c p (“secondary”)
nh ngh a c ng đ c p đ n các t p d li u trong khai phá d li u
th ng là l n N u ch làm vi c trên t p d li u nh , chúng ta hoàn toàn
m i ch th o lu n phân tích d li u khám phá c đi n (classical exploratory
data analysis) nh công vi c c a các nhà th ng kê Khi đ i m t v i d li u
l n, các bài toán m i s n y sinh M t s bài toán thì liên quan đ n các
v n đ l u tr và truy c p d li u, m t s khác thì liên quan đ n các v n
đ c b n nh là làm th nào đ xác đ nh các đ i di n c a d li u, làm th
nào phân tích d li u trong th i gian ch p nh n đ c, làm th nào đ
quy t đ nh xem m t m i liên h ch đ n thu n là s xu t hi n ng u nhiên
không ph n ánh m t th c t nào c Thông th ng, d li u có s n ch bao
g m m t m u t m t t p đ y đ d li u; m c đích là khái quát hóa
(generalize) t m u đó cho toàn b t p d li u Ch ng h n chúng ta mong
mu n d đoán hành vi c a các khách hàng trong t ng lai, ho c d đoán
các tính ch t c a c u trúc proteins mà chúng ta ch a bao gi nhìn th y
tr c đó Nh ng khái quát hóa nh v y có th không th có đ c b ng
các cách ti p c n th ng kê chu n vì d li u th ng không ph i là các m u
“ng u nhiên” mà là “m u ti n l i” (“convenience samples”) ho c “m u c
h i” (“opportunity samples”) ôi khi chúng ta mu n tóm t t ho c nén m t
t p d li u l n theo m t cách sao cho k t qu là d h u, không có b t c
m t ý ni m nào c a khái quát hóa c V n đ nh v y s n y sinh, ch ng
h n, n u chúng ta đã hoàn thành d li u đi u tra dân s đ y đ c a m t
qu c gia, ho c m t CSDL g m hàng tri u giao d ch bán l
Các m i liên h và c u trúc tìm th y trong các t p d li u ph i là
m i, đi u đó là t t nhiên S có r t ít giá tr khi tìm ra các m i liên h đã
thiêt l p tr c (tr khi m c đính c a công vi c là xác nh n gi thuy t, xác
Trang 4đ nh xem m t khuôn m u – pattern - t n t i trong m t t p d li u m i
không), ho c các m i liên h c n thi t (ví d nh t t c b nh nhân mang
thai là n ) Rõ ràng, tính m i ph i đ c đo m t cách t ng đ i đ i v i tri
th c đã có tr c (tri th c tiên nghi m) c a ng i s d ng Không may là
ch có m t vài gi i thu t khai phá d li u là đ c p đ n tri th c tiên nghi m
Nó v n là bài toán đang t n l i trong nghiên c u
Trong khi tính m i là m t tính ch t quan tr ng c a các m i liên h
chúng ta tìm ki m, nó v n không đ đ đánh giá m t m i liên h là có giá
tr C th , các m i liên h ph i có th hi u đ c Ví d các m i liên h
đ n gi n là d hi u h n các m i liên h ph c t p, và vì v y đ c a thich
h n
Data mining là l nh v c liên ngành: th ng kê h c (statistics), công
ngh c s d li u (database technology), h c máy (machine learning),
nh n d ng khuôn m u (pattern recognition), trí tu nhân t o (artificial
intelligence), và tr c quan hóa (visualization), t t c đ u có vai trò nh t
đ nh R t khó đ xác đ nh m t biên rõ ràng gi a các ngành này và biên
gi a m i trong chúng v i data mining
2 Quá trình khai phá tri th c và khai phá d li u
Khai phá d li u th ng đ c xác l p trong ng c nh r ng h n c a
“khám phá tri th c trong các c s d li u” (“knowledge discovery in
databases”, KDD) Thành ng này xu t phát t l nh v c trí tu nhân t o
(artificial intelligence, AI) Quá trình KDD liên quan đ n nhi u công đo n:
l a ch n d li u, ti n x lý d li u, chuy n d ng (transforming) chúng n u
c n thi t, th c hi n khai phá d li u đ trích ra khuôn m u và các m i liên
h , di n d ch và đánh giá khuôn m u và m i liên h tìm ra M t l n n a
các biên chính xác c a ph n khai phá d li u c a các quá trình trên là
không d dàng xác đ nh; ch ng h n, v i r t nhi u ng i thì chuy n d ng
d li u là m t ph n th c s c a khai phá d li u
Trang 5Quá trình khai phá tri th c d li u g m các b c:
a Làm s ch d li u (Data Cleaning): Lo i b d li u nhi u và d
d Chuy n đ i d li u (Data Transformation): D li u đ c chuy n
đ i hay đ c h p nh t v d ng thích h p cho vi c khai phá
e Khai phá d li u (Data Mining): ây là m t ti n trình c t y u
trong đó các ph ng pháp thông minh đ c áp d ng nh m trích
Trang 6Hình 1: Bi u di n quy trình khai phá tri th c
Quá trình x lý khai phá d li u b t đ u b ng cách xác đ nh chính
xác v n đ c n gi i quy t Sau đó s xác đ nh các d li u liên quan
dùng đ xây d ng gi i pháp
B c ti p theo là thu th p các d li u có liên quan và x lý chúng
thành d ng sao cho các gi i thu t khai phá d li u có th hi u đ c
V lý thuy t thì có v r t đ n gi n nh ng khi th c hi n thì đây th c s
sánh các giá tr hi n t i v i các giá tr tr c đó hay các giá tr mong
mu n), hay b ng tri th c (m i liên h gi a ph ng pháp tìm m i và
ph ng pháp c nh th nào).Th ng thì đ m i c a m u đ c đánh
giá b ng m t hàm logic hay m t hàm đo đ m i, đ b t ng c a m u
Ngoài ra, m u ph i có kh n ng s d ng ti m tàng Các m u sau khi
đ c x lý và di n gi i ph i d n đ n nh ng hành đ ng có ích nào đó
Trang 7đ c đánh giá b ng m t hàm l i ích.M u khai thác ph i có giá tr đ i
v i các d li u m i v i đ chính xác nào đó
Hình 2: Bi u di n quy trình khai phá d li u
3 Các k thu t và ph ng pháp khai phá d li u
S r t ti n l i khi phân lo i khai phá d li u thành các ki u nhi m v ,
t ng ng v i m c tiêu khác nhau Phân lo i d i đây không ph i là duy
nh t, và vi c phân chia nh h n, thành các nhi m v m n h n là có th
3.1 Phân tích d li u khám phá (Exploratory Data Analysis –
EDA)
Nh cái tên đ t, m c đích đây đ n gi n là khám phá d li u
mà không có ý t ng rõ ràng nào v cái chúng ta tìm ki m i n
hình, các k thu t EDA là t ng tác và tr c quan, và có r t nhi u
ph ng pháp hi n th đ h a hi u qu đ i v i các t p d li u ít
Tìm ki m tri th c ánh giá m u tìm đ c
Trang 8chi u và nh Khi s chi u (s các bi n, p) t ng, s tr nên r t khó
đ tr c quan đám mây các đi m trong không gian p chi u V i p l n
h n 3 ho c 4, các k thu t chi u nh là phân tích các thành ph n
chính đ sinh ra hình chi u ít m t mát thông tin c a d li u xu ng
không gian ít chi u h n là h u ích M t l ng l n d li u có th khó
tr c quan hi u qu , dù v y, các ký hi u c a thang (scale) và chi ti t
đi v i nhau gi i quy t đ c v n đ : các m u d li u v i đ phân gi i
th p h n có th đ c hi n th và tóm t t v i m t chi phí h p lý có
th b qua m t s chi ti t quan tr ng M t s ví d c a các ng d ng
EDA là:
- Becker, Erick and Wilks, 1995, đã mô t m t t p công c tr c
quan hi n th các khuôn m u m ng đi n tho i đ ng dài (trên 12.000 links)
M c tiêu c a m t mô hình mô t là mô t t t c d li u (ho c quá
trình sinh ra d li u) Các ví d c a các mô t nh v y bao g m các
mô hình cho phân b xác su t chung, c l ng hàm m t đ c a
d li u, phân ho ch không gian d li u p chi u thành các nhóm,
phân tích phân nhóm và phân đo n, và các mô hình mô t m i liên
h gi a các bi n (mô hình ph thu c) Trong phân tích phân đo n
ch ng h n, m c đích là đ nhóm các b n ghi t ng t , nh trong
vi c phân đo n th tr ng c a các CSDL th ng m i đây m c
đích là đ chia các b n ghi thành các nhóm sao cho các khách hàng
gi ng nhau đ c đ t trong cùng m t nhóm i u này cho phép các
nhà qu ng cáo, các nhân viên makerting qu ng bá m t cách hi u
qu nh m thu đ c t i u l i nhu n v i chi phí th p S nhóm đây
đ c ch n b i các nhà nghiên c u, không có s “đúng” i u này
đ i l p v i phân tích phân nhóm, đó m c đích là đ khám phá các
nhóm “t nhiên” t d li u, ví d nh d li u v khoa h c Xây d ng
mô hình mô t đã đ c s d ng trong nhi u cách:
Trang 9- Phân đo n đã đ c s d ng trong makerting đ chia các
khách hàng thành các nhóm d a trên khuôn m u mua hàng
và d li u nhân kh u nh tu i, thu nh p, (Wedel and Kamakura, 1998)
- Phân tích phân nhóm đã đ c s d ng r ng rãi trong nghiên
c u tâm th n h c đ xây d ng các phân c p c a các bênh lý tâm th n Ch ng h n, Everitt, Gourlay and Kendel (1971) áp
d ng phân tích phân nhóm đ i v i m u các b nh nhân tâm
th n n i trú; h đã tìm ra r ng t t c b n phân tích đã s n sinh
ra m t nhóm bao g m ch y u các b nh phân “psychotic depression”
- Các k thu t phân nhóm đã đ c s d ng đ phân tích các
thay đ i khí h u dài h n trong vùng khí quy n phía trên bán
c u b c c a trái đ t Thay đ i này ch y u b i 3 khuôn m u
áp su t cùng xu t hi n đ c nh n di n t d li u ghi l i hàng ngày n m 1948 (xem Cheng and Wallace 1993, …)
(predictive modeling : classification and regression)
M c đích là đ xây d ng m t mô hình mà cho phép giá tr c a
m t bi n đ c d đoán t các giá tr đã bi t c a các bi n khác
Trong phân l p, bi n đ c d đoán có giá tr là ki u phân lo i, trong
khi đó trong h i qui, bi n c n d đoán là đ nh l ng Thành ng “d
đoán” đ c s d ng đây là s d ng chung Ch ng h n, khi chúng
ta mu n d đoán giá tr c a th tr ng c ph n m t ngày trong
t ng lai, ho c mu n d đoán con ng a nào s th ng trong m t
cu c đua, chúng c ng có th mu n xác đ nh chu n đoán c a m t
b nh nhân, ho c m c đ d v c a m t m i hàn M t s l n các
ph ng pháp đã đ c phát tri n trong th ng kê h c và h c máy đ
gi i quy t các bài toán xây d ng mô hình d đoán, và các công vi c
trong l nh v c này đã d n đ n m t b c ti n lý thuy t đáng k và
nh ng hi u bi t v các v n đ sâu c a suy di n S phân bi t chính
Trang 10gi a vi c d đoán và vi c mô t là vi c d đoán có m t bi n m c
tiêu duy nh t (bi n c n d đoán) (ví d nh giá tr th tr ng, lo i
b nh, đ d v , ), trong khi các bài toán mô t không có m t bi n
nh v y làm trung tâm c a mô hình Các ví d c a các mô hình d
đoán là nh sau:
- H th ng SKICAT do JPL/Caltech phát tri n s d ng bi u di n
có c u trúc cây đ h c cây phân l p t t nh các chuyên gia trong vi c phân l p các ngôi sao và các ngân hà t m t vector
40 chi u đ có th phân tích và phân lo i (Fayyad, Djorgovski,
& Weir)
- Các nhà nghiên c u c a AT&T phát tri n m t h th ng đ l n
theo d u v t đ c đi m c a toàn b 350 tri u s đi n tho i khác nhau c a n c M (Corter, Pregibon 1998) Các k thu t
h i quy đ c s d ng đ xây d ng các mô hình có kh n ng
d đoán m t s đi n tho i là kinh doanh hay gia đình
3.4 Khám phá các khuôn m u và lu t (Discovering patterns
th ng xuyên xu t hi n trong các CSDL giao d ch Bài toán này đã
đ c đ tâm r t nhi u trong khai phá d li u và đã đ c gi i quy t
s d ng các công ngh gi i thu t d a trên các lu t k t h p
(association rules)
Trang 113.5 L y thông tin d a trên n i dung (Retrieval by content)
Ng i s d ng có m t khuôn m u và mu n tìm các khuôn m u
gi ng v y trong t p d li u Công vi c này đ c s d ng nhi u đ i
v i các t p d li u v n b n và hình nh V i v n b n, khuôn m u có
th là t p các t khóa (keywords) và ng i s d ng mong mu n tìm
các tài li u thích h p (các trang web) V i hình nh, ng i dùng có
- Tìm ki m tài li u trên Web trong h th ng Google
(www.google.com) c a Brin & Page (1998) S d ng thu t toán PageRank đ c đoán s liên quan c a các trang Web riêng l d a trên khuôn m u liên k t
- QBIC (Query by Image Content) là m t h th ng đ c phát
tri n b i các nhà nghiên c u IBM, cho phép ng i dùng tìm
ki m trong m t d li u l n các hình nh các m i liên quan
t ng quan v n i dung nh n d ng nh màu s c, b c c, thông tin v trí đi m nh (Có kh n ng xác đ nh nh đ c
ghép, x lý l i t các nh ch p)
M c dù n m nhi m v mô t trên là khác nhau, chúng có nhi u
thành ph n chung, ví d nh khái ni m gi ng nhau ho c kho ng cách
gi a hai vector d li u là c n chung cho c n m nhi m v Ho c khái ni m
các hàm cho đi m (s d ng đ đ nh giá m c đ phù h p c a m t mô hình
ho c khuôn m u đ i v i d li u) c ng là chung m c dù các hàm c th là
khác nhau đ i v i các nhi m v khác nhau Các c u trúc mô hình và khuôn
m u là c n ph i khác nhau v i các nhi m v khác nhau và c ng c n khác
nhau đ i v i các ki u d li u khác nhau
4 Các thành ph n c a gi i thu t data mining
Trang 12ki m trên các c u trúc mô hình và khuôn m u
• Chi n l c qu n tr d li u: đi u khi n vi c truy c p d li u m t
cách hi u qu trong quá trình t i u tìm ki m
4.1 C u trúc mô hình hay khuôn m u (Model or patterns
structure)
Các ki u bi u di n đ c tìm ki m trong khai phá d li u có
th đ c đ c tr ng hóa theo nhi u cách M t trong đ c tr ng hóa là
s phân bi t gi a m t mô hình toàn c c và m t khuôn m u c c b
đây, m t mô hình toàn c c là m t tóm t t toàn c c c a t p
d li u Nó t o nên các m nh đ v b t k d li u nào trong không
gian đo đ y đ V m t hình h c, n u chúng ta xem xét các dòng
c a ma tr n d li u nh các vector p chi u (các đi m trong không
gian p chi u), mô hình có th t o nên m t m nh đ v b t k đi m
nào trong không gian này (và do v y b t k đ i t ng) Ch ng h n,
mô hình có th gán m t đi m cho m t nhóm ho c d đoán giá tr
c a m t s bi n khác Th m chí khi m t s s đo b thi u (ví d m t
s thành ph n c a vector p chi u ch a bi t), mô hình có th t o ra
m t s m nh đ v đ i t ng bi u di n b i vector (không đ y đ )
này
M t mô hình đ n gi n có th có d ng Y = aX + c, v i X và Y là các bi n và a, c là các tham s c a mô hình (các h ng s đ c xác
đ nh trong quá trình th c hi n khai phá d li u) đây ta có th nói
Trang 13r ng d ng hàm c a mô hình là tuy n tính, do Y là m t hàm tuy n
tính c a X Vi c dùng các thành ng c a th ng kê thông th ng là
h i khác Trong th ng kê h c, m t mô hình là tuy n tính n u nó là
hàm tuy n tính đ i v i các tham s c a mô hình Chúng ta s c
g ng vi t rõ ràng d ng nào c a tuy n tính nào chúng ta mu n ám
ch , nh ng khi chúng ta th o lu n c u trúc c a mô hình, chúng ta s
xem tính tuy n tính đây nh các hàm c a các bi n ch không ph i
là hàm c a các tham s c a mô hình Vì v y, ch ng h n, c u trúc
mô hình
Y = a X2 + bX + c đ c coi là mô hình tuy n tính trong th ng kê h c
c đi n, nh ng d ng hàm c a mô hình liên h Y và X là không tuy n
tính (đa th c b c hai)
i l p v i b n ch t toàn c c c a mô hình, các c u trúc khuôn
m u t o ra các m nh đ ch v các vùng h n ch c a không gian
M t ví d là m nh đ xác su t đ n gi n có d ng
if X>x1 then prob (Y>y1) = p1
C u trúc này g m các ràng bu c trên các giá tr c a các bi n
X và Y, liên h theo d ng c a lu t xác su t Chúng ta có th mô t
m i liên h đó theo cách khác, nh xác su t đi u ki n sau v i cùng
ngh a
p(Y>y1 | X>x1) = p1
Ho c chúng ta có th chú ý r ng các l p b n ghi giao d ch c th
không trùng lên các đ nh và vùng lõm và xem xét chi ti t h n đ xem
lý do t i sao (công vi c này cho ngân hàng bi t đ c r ng có m t
vài tài kho n mà thu c v ng i đã ch t) Do v y, đ i l p v i các mô
hình (toàn c c), m t khuôn m u (c c b ) mô t m t c u trúc liên
quan đ n m t ph n t ng đ i nh c a d li u ho c không gian mà
d li u xu t hi n Có th m t s các b n ghi hành x theo m t cách
c th , và khuôn m u đ c tr ng hóa chúng Ví d , m t tìm ki m trên
m t CSDL giao d ch đ t hàng qua email có th b c l r ng khách
Trang 14hàng mua t h p các m t hàng c th th ng mua t h p m t
khàng khác Ho c có th chúng ta nh n ra m t nhúm các b n ghi
“l ” (“outlying” records) mà r t khác v i đa s các b n ghi (nh ng cái
đ c xem là đám mây trung tâm trong không gian p chi u) Ví d
cu i cùng này minh h a r ng các mô hình toàn c c và các khuôn
m u c c b có th đôi khi đ c xem nh hai m t đ i l p nhau c a
m t đ ng xu dò tìm ra dáng v không thông th ng, chúng ta
c n m t mô t cho dáng v thông th ng Có m t s song song
đây đ i v i vai trò c a các chu n đoán trong phân tích th ng kê h c;
các ph ng pháp dò tìm khuôn m u c c b có các ng d ng trong
vi c tìm ra cái b t th ng, nh dò tìm l i trong các quá trình công
nghi p, dò tìm gian l n trong các tác nghi p c a ngân hàng và
th ng m i
Chú ý r ng các c u trúc mô hình và khuôn m u mô t trên
có các tham s k t h p v i chúng; a, b, c cho mô hình và x1, y1 và
p1 v i khuôn m u trong các ví d trên Nhìn chung, m t khi chúng ta
thi t l p đ c d ng c u trúc c n tìm ki m, ti p theo chúng ta s tìm
ra các tham s c a c u trúc t d li u có s n M t khi các tham s
đ c gán giá tr , chúng ta g i các mô hình c th , ch ng h n y = 3.2
x + 2.8, là mô hình khít v a v i d li u-“fitted model”, ho c đ n gi n
h n g i là mô hình (t ng t nh v y đ i v i khuôn m u) S phân
bi t gi a c u trúc mô hình (ho c c u trúc khuôn m u) v i mô hình
th c (ho c khuôn m u) là quan tr ng Các c u trúc bi u di n các
d ng hàm chung c a các mô hình (ho c khuôn m u), v i các giá tr
c a các tham s ch a bi t M t mô hình ho c khuôn m u c th có
các giá tr xác đ nh cho các tham s c a mô hình
S phân bi t gi a mô hình và khuôn m u là h u ích trong r t nhi u tình hu ng Dù v y, c ng nh vi c phân chia các loài sinh v t
thành các l p là đ thu n ti n cho hi u bi t c a con ng i, nó không
khó và nhanh, đôi khi là không rõ ràng khi xem m t c u trúc c th
nên xem là m t mô hình hay là m t khuôn m u Trong nh ng tr ng
Trang 15h p nh v y, cách t t nh t không nên quá quan tâm xem cái nào là
ta không th nói m t mô hình này là t t h n mô hình kia, hay là
không bi t làm th nào đ ch n m t t p các giá tr t t cho các tham
s c a mô hình M t vài hàm đánh giá đã đ c s d ng cho m c
đích này: s có kh n ng x y ra, t ng các l i (sai s ) bình ph ng,
t l phân l p nh m (s d ng nhi u trong các bài toán phân l p có
giám sát) Ch ng h n, hàm đánh giá sai s bình ph ng đ c đ nh
ngh a nh sau
đây chúng ta d đoán cho n giá tr y(i), i=1,n, và các d đoán c a chúng ta cho chúng là các giá tr y^(i) (th ng là m t hàm
c a m t s giá tr c a các bi n khác và các tham s c a mô hình)
S thích h p v m t lý thuy t c a các tiêu chu n khác nhau
ph i đ c bi n t u b i tính th c t khi áp d ng chúng Mô hình
chúng ta xem xét t i u m t tiêu chu n có th là lý t ng đ i v i d
li u, nh ng n u c l ng (tìm ra) các tham s c a nó m t hàng
tháng tr i thì nó r t ít giá tr T ng t v y, m t hàm đánh giá mà r t
Trang 16nh y c m v i nh ng thay đ i nh trong d li u có th là không m y
h u ích (l i ích c a nó s ph thu c vào các m c tiêu c a nghiên
c u) Ch ng h n, vi c thay đ i các giá tr c a vài tr ng h p ngo i
l d n đ n thay đ i l n trong giá tr c l ng c a m t s tham s
mô hình; m t t p d li u th ng đ c ch n ra t m t s t p d li u
có th có, và có th x y ra r ng trong các t p d li u khác, các
tr ng h p ngo i l này có giá tr khác V n đ t ng t nh v y
c n ph i tránh b i s d ng các ph ng pháp không tinh vi, ít nh y
c m v i các tr ng h p ngo i l này
search methods)
Hàm đánh giá là m t đ đo m c đ phù h p các khía c nh
c a d li u đ i v i các mô hình và khuôn m u đã đ xu t Thông
th ng các mô hình và khuôn m u này đ c mô t trong d ng m t
c u trúc, đôi khi v i các giá tr tham s ch a bi t M c đích c a t i
u hóa và tìm ki m là đ xác đ nh c u trúc ho c các giá tr c a tham
s mà làm t i thi u (ho c t i đa, d a trên ng c nh) giá tr hàm đánh
giá Nhi m v tìm ra các giá tr “t t nh t” c a các tham s trong các
mô hình đ c xem nh là bài toán t i u (ho c c l ng) Nhi m
v tìm ra các khuôn m u thú v (nh các lu t ch ng h n) t m t t p
l n các khuôn m u ti m n đ c coi là bài toán tìm ki m t h p, và
th ng s d ng các k thu t tìm ki m heuristic Trong h i qui tuy n
tính, m t lu t d đoán th ng đ c tìm ra b i tìm t i thi u m t hàm
đánh giá các bình ph ng nh nh t (t ng các sai s bình ph ng
gi a giá tr d đoán c a mô hình và giá tr quan sát c a bi n d
đoán) Hàm đánh giá nh v y là s d ng các phép tính toán h c, và
mô hình t i thi u hàm này có th tìm ra b ng ph ng pháp đ i s
Ng c l i, m t hàm đánh giá nh là t l phân l p nh m trong phân
l p có giám sát là khó tìm ra t i thi u b ng ph ng pháp gi i tích Ví
d , do nó là không liên t c, các công c v phép tính đ o hàm không
đ c áp d ng đây
Trang 17T t nhiên, trong khi chúng ta tìm các hàm đánh giá đ sinh ra
m t đ i sánh t t gi a m t mô hình ho c khuôn m u và d li u, trong
nhi u tr ng h p, đi u này không là m c tiêu Nh đã chú ý trên,
chúng ta th ng h ng đ n khái quát hóa đ i v i d li u m i, vi c
tìm ra m t đ i sánh quá t t v i d li u đã bi t th ng d n đ n mô
hình cho k t qu không chính xác khi d đoán d li u m i
strategies)
Thành ph n cu i cùng trong b t k m t gi i thu t khai phá d
li u là chi n l c qu n tr d li u: các cách l u tr , ch s và truy
c p d li u Các gi i thu t phân tích d li u đ c bi t đ n nhi u
nh t trong th ng kê h c và h c máy đã đ c phát tri n d i gi
thuy t r ng t t c các đi m d li u c th có th đ c truy c p m t
cách nhanh chóng và hi u qu trong b nh truy c p ng u nhiên
(RAM) Trong khi công ngh b nh chính đã đ c c i ti n nhanh
chóng, các công ngh l u tr th c p (đ a) và tam c p (b ng) đã
đ c c i ti n v i t c đ nhanh nh nhau, v i m c đ mà nhi u t p
d li u l n v n n m ch y u trong đ a ho c b ng và không v a
trong RAM có s n Do v y, thông th ng s có m t giá ph i tr khi
mu n truy c p các t p d li u l n do t t c các đi m d li u không
th cùng lúc đ t g n b x lý c a máy tính
Nhi u gi i thu t phân tích d li u đã đ c phát tri n mà không đ c p đ n đ c t t ng minh m t chi n l c qu n tr d li u
nào do nó làm vi c trên các t p d li u nh (ví d gi i th t cây h i
qui và phân l p) Nh ng chúng th ng th t b i khi áp d ng tr c ti p
Trang 18đã đ c phát tri n đ h tr các phép tính, thao tác đ m t ng đ i
đ n gi n trên các t p d li u l n v i các m c đích làm báo cáo Dù
v y, trong nh ng n m g n đây, s phát tri n đã b t đ u v i các
công ngh mà h tr các thao tác truy c p d li u “nguyên th y” đ
th c hi n các ki u hi u qu c a các gi i thu t khai phá d li u
(ch ng h n các h th ng đánh ch s có c u trúc cây đ c s d ng
đ tìm l i đ c các láng gi ng c a m t đi m trong nhi u chi u)
5 Nh ng thách th c trong ng d ng và nghiên c u k thu t
trong data mining
đây chúng tôi đ a ra m t s khó kh n trong vi c nghiên c u và
ng d ng k thu t khai phá d li u.Tuy nhiên, th không có ngh a là vi c
gi i quy t là hoàn toàn b t c mà ch mu n nêu lên r ng đ khai phá d
li u không ph i là đ n gi n, mà ph i xem xét c ng nh tìm cách gi i quy t
nh ng v n đ này Chúng tôi có th li t kê m t s khó kh n nh sau:
5.1 Các v n đ v c s d li u
u vài ch y u c a m t h th ng khai thác tri th c là các d li u
thô trong c s d li u Nh ng v n đ khó kh n phát sunh trong khai phá
d li u chính là t đây Do các d li u trong th c t th ng đ ng, không
đ y đ , l n, và b nhi u Trong nh ng tr ng h p khác, ng i ta không
bi t c s d li u có ch a các thông tin c n thi t cho vi c khai thác hay
không và làm th nào đ gi i quy t v i s d th a nh ng thông tin thích
Trang 19n t dung c a chúng thay đ i liên t c D li u có th thay đ i theo
th o gian và vi c khai phá d li u c ng b nh h ng b i th i đi m
quan sát d li u Ví d trong c s d li u v tình tr ng b nh nhân,
m t s giá tr d li u là h ng s , m t s khác l i thay đ i liên t c
theo th i gian (ví d cân n ng và chi u cao), m t s khác l i thay đ i
tu thu c vào tình hu ng và ch có giá tr đ c quan sát m i nh t (ví
d nh p đ p c a m ch) Vi c thay đ i d li u nhanh chóng có th
làm cho các m u khai thác đ c tr c đó m t giá tr H n n a, các
bi n trong c s d li u c a ng d ng đã cho c ng có th b thay
đ i, b xoá hay là t ng lên theo th i gian V n đ này đ c gi i quy t
thích h p v i tr ng tâm hi n t i c a vi c khai thác M t khía c nh
khác, đôi khi c ng liên quan đ n đ phù h p là tính ng d ng c a
m t thu c tính đ i v i m t t p con c a c s d li u Ví d tr ng
s tài kho n không áp d ng cho các tác nhân
e Các giá tr b thi u: S có m t hay v ng m t c a giá tr các thu c
tính d li u phù h p có th nh h ng đ n vi c khai phá d li u
Trong h th ng t ng tác, s thi u v ng d li u quan tr ng có th
Trang 20d n đ n yêu c u cho giá tr c a nó hay ki m tra đ xác đ nh giá tr
c a nó Ho c c ng có th s v ng m t c a d li u đ c coi nh
m t đi u ki n, thu c tính b m t có th coi nh m t giá tr trung gian
và là giá tr không bi t
f Các tr ng b thi u: M t quan sát không đ y đ c s d li u có
th làm cho các d li u có giá tr b xem nh l i Vi c quan sát c s
d li u ph i phát hi n đ c toàn b các thu c tính có th dùng đ
gi i thu t khai phá d li u có th áp d ng nh m gi i quy t bài toán
Gi s chúng ta có các thu c tính đ phân bi t các tình hu ng đang
quan tâm N u chúng không làm đ c đi u đó thì có ngh a là đã l i
trong d li u i v i m t h th ng h c đ chu n đoán b nh s t rét
t m t c s d li u b nh nhân thì tr ng h p các b n ghi c a
b nh nhân có các tri u ch ng gi ng nhau nh ng l i có các chu n
đoán khác nhau là do d li u đã b l i ây c ng là v n đ th ng
x y ra trong c s d li u kinh doanh Các thu c tính quan tr ng có
th b thi u n u d li u không đ c chu n b cho vi c khai phá d
li u
g nhi u và không ch c ch n: i v i các thu c tính đã thích h p,
đ nghiêm tr ng c a l i ph thu c vào ki u d li u c a giá tr cho
phép, Các giá tr c a các thu c tính khác nhau có th là các s th c,
s nguyên, chu i và có th thu c vào t p các giá tr đ nh danh Các
giá tr đ nh danh này có th s p x p theo th t t ng ph n hay đ y
đ , th m chí có th có c u trúc ng ngh a M t y u t khác c a đ
không ch c ch n chính là tính k th a hay đ chính xác mà d li u
c n có, nói cách khác là đ nhi u c a d li u D a trên vi c tính
toán trên các phép đo và phân tích có u tiên, mô hình th ng kê tính
ng u nhiên đ c t o ra và đ c s d ng đ đ nh ngh a đ mong
mu n và đ dung sai c a d li u Th ng thì các mô hình th ng kê
đ c áp d ng theo cách đ c bi t đ xác đ nh m t cách ch quan
các thu c tính đ đ t đ c các th ng kê và đánh giá kh n ng ch p
nh n c a các (hay t h p các) giá tr thu c tính c bi t là v i d
Trang 21li u ki u s , s đúng đ n c a d li u có th là m t y u t trong vi c
khai phá Ví d nh trong nhi t đ c th , ta th ng cho phép chênh
l ch 0,1 đ Nh ng vi c phân tích theo xu h ng nh y c m nhi t đ
c a c th l i có th yêu c u đ chính xác cao h n m t h
th ng khai thác có th liên h đ n xu h ng này đ chu n đoán thì
l i c n có m t đ nhi u trong d li u đ u vào
h M i quan h ph c t p gi a các tr ng : Các thu c tính hay các
giá tr có c u trúc phân c p, các m i quan h gi a các thu c tính vàv
các ph ng ti n ph c t p đ di n t tri th c v n i dung c a c s
d li u yêu c u các gi i thu t ph i có kh n ng s d ng m t cách
hi u qu các thông tin này Ban đ u, k thu t khai phá d li u ch
đ c phát tri n cho các b n ghi có các giá tr thu c tính đ n gi n
Tuy nhiên, ngày nay ng i ta đang tìm cách phát tri n các k thu t
nh m rút ra các m i quan h gi a các bi n này
5.2 Các v n đ v khác
a Quá phù h p (Overfitting): Khi m t gi i thu t tìm ki m các tham s
t t nh t cho m t mô hình d li u nào đó s d ng m t t p d li u h u
b ánh giá t m quan tr ng th ng kê: V n đ (liên quan đ n
overfitting) x y ra khi m t h th ng tìm ki m qua nhi u mô hình Ví d
m t h th ng ki m tra N mô hình m c đ quan tr ng 0,001 thì v i d
li u ng u nhiên trung bình s có N/1000 mô hình đ c ch p nh n là
quan tr ng x lý v n đ này, ta có th s d ng ph ng pháp đi u
Trang 22ch nh th ng kê trong ki m tra nh m t hàm tìm ki m, ví d nh đi u
Trang 23III LU T K T H P
T khi nó đ c gi i thi u t n m 1992 bài toán khai thác lu t k t h p
nh n đ c r t nhi u s quan tâm c a nhi u nhà khoa h c Ý t ng c a
vi c khai thác các lu t k t h p có ngu n g c t vi c phân tích d li u mua
H n n a, lu t k t h p không ch b gi i h n trong phân tích s ph
thu c l n nhau trong ph m vi các ng d ng bán l mà chúng còn đ c áp
d ng thành công trong r t nhi u bài toán khác
Trang 24h tr cho bi t m c đ ph bi n c a lu t
support(X ⇒ Y [s,c]) = P(X U Y) = support({X,Y})
tin c y (confidence) c a lu t k t h p X ⇒ Y[s,c]
Bi u th s ph n tr m giao tác có ch a luôn Y trong s nh ng giao
h tr và đ tin c y đ c ký hi u là minsup và mincof
Ví d : Khi phân tích gi hàng c a ng i mua hàng trong m t siêu
th ta có đ c lu t ki u nh : khách hàng mua s a thì kh n ng 80%
c ng mua bánh mì và có 30% mua c hai th
Trong đó “mua s a ” là ti n đ còn “mua bánh mì ” là k t lu n c a
lu t Con s 30% là đ h tr c a lu t còn 80% là đ tin c y c a
lu t
Chúng ta nh n th y r ng tri th c đem l i b i lu t k t h p d ng trên
có s khác bi t r t nhi u so v i thông tin thu đ c t các câu l nh
truy v n d li u thông th ng nh SQL ó là nh ng tri th c, nh ng
m i liên h ch a bi t tr c và mang tính d báo đang ti m n trong
d li u Nh ng tri th c này không đ n gi n là k t qu c a phép
nhóm, tính t ng hay s p x p mà là c a m t quá trình tính toán khá
ph c t p
Trang 25Hình 3: Không gian tìm ki m t p ph bi n 5 thu c tính
Tuy nhiên, v n còn t n t i nhi u thách th c và khó kh n trong khai
AB
ABC
Trang 26- Thông tin khoa h c
- Thông tin cá nhân…
4 M t s h ng ti p c n trong khai phá lu t k t h p
L nh v c khai thác lu t k t h p cho đ n nay đã đ c nghiên c u và
phát tri n theo nhi u h ng khác nhau Có nh ng đ xu t nh m c i ti n
thu t toán, có đ xu t tìm ki m nh ng lu t có ý ngh a h n và có m t s
h ng chính sau đây :
¬ Lu t k t h p nh phân (binary association rules)
Lu t k t h p nh phân là h ng nghiên c u đ u tiên c a lu t k t
h p Theo d ng lu t k t h p này thì các items ch đ c quan tâm là
Trang 27có hay không xu t hi n trong c s d li u giao tác ch không quan
tâm v m c đ hay t n xu t xu t hi n Thu t toán tiêu bi u nh t c a
khai phá d ng lu t này là thu t toán Apriori s đ c trong các
ch ng ti p theo
¬ Lu t k t h p có thu c tính s và thu c tính h ng m c
(quantitative and categorial association rules)
Các c s d li u th c t th ng có các thu c tính đa d ng Các
thu c tính này có th d ng s l ng (quantitative) hay d ng phân
lo i (categorial) khai phá lu t k t h p v i các c s d li u này,
các nhà nghiên c u đ xu t m t s ph ng pháp r i r c hoá nh m
chuy n d ng lu t này v d ng nh phân đ có th áp d ng các thu t
toán đã có
¬ Lu t k t h p ti p c n theo h ng t p thô (mining association
rules base on rough set)
tìm ki m lu t k t h p d a trên lí thuy t t p thô
¬ Lu t k t h p nhi u m c (multiple-level association rules)
V i cách ti p c n lu t k t h p th này s tìm ki m thêm nh ng lu t
có d ng : mua máy tính PC⇒ mua h đi u hành Window AND mua
ph n m m v n phòng Microsoft Office,…
¬ Lu t k t h p m (fuzzy association rules)
V i nh ng khó kh n g p ph i khi r i r c hoá các thu c tính s , các
nhà nghiên c u đ xu t lu t k t h p m kh c ph c h n ch đó và
chuy n lu t k t h p v m t d ng g n g i h n
¬ Lu t k t h p v i thu c tính đ c đánh tr ng s (association
rules with weighted items)
Các thu c tính trong c s d li u th ng không có vai trò nh
nhau Có m t s thu c tính quan tr ng và đ c chú tr ng h n các
thu c tính khác Vì v y trong quá trình tìm ki m lu t các thu c tính
đ c đánh tr ng s theo m c đ xác đ nh nào đó Nh v y ta thu
đ c nh ng lu t “hi m” (t c là có đ h tr th p nh ng mang nhi u ý
ngh a )