1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn khai phá dữ liệu trong SQL server 2012

89 508 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 89
Dung lượng 1,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Lot MO DAU Srv phat then cua cong nghe thong tin va viec img dung tong nghe thong tin trong nhieu linh Arc ctia dbi song, kinh tee, xft hoi trong nhieu nim qua cling ding nghia veri lucm

Trang 1

BO GAO DUC DAO TAD TRUONG DAI HQC THANG LONG

o0o

CHUYEN DE TOT NGHIEP

KHAI PHA DU' LIEU TRONG SQL SERVER 2012

Nguyen Mk Hoang A11500

HA NOI-2014

Trang 2

Lot MO DAU

Srv phat then cua cong nghe thong tin va viec img dung tong nghe thong tin trong nhieu linh Arc ctia dbi song, kinh tee, xft hoi trong nhieu nim qua cling ding nghia veri lucmg de lieu dl duqc the co quan thu thip va lint frit ngay mot tich lily

nhieu len H9 luu t± cac de lieu nay vi cho ring no An chfra nhung gia trj nho nhat nao do Tuy nhien, theo thOng ke tin chi mot lacing nho cira nheng de lieu nay (khoing tir 5% den 10%) la luon duqc phan tich, so con lui h9 khong biet phai lam gi hoic co the lam gi veri chting nhung h9 van tiep mc thu thip rat ton kern viii y nghia lo sq rang

co cai gi de quan trcong bj be qua sau nay Inc can den no Mit khac, trong mOi throng canli tranh, ngu&i to ngay cang can c6 nhieu thong tin veri tic dO nhanh try glop viec ra quyOt djnh vi ngay cang nhieu cau hoi mang tinh chit djnh firth can phai tra lei

dua tr'en mot khOi lacing de lieu khOng 16 dii c6 Viii nheng It do nhtr vay, cac phuong phap quan trj va khai thac ca ser de lieu truyin thong nwly cing khong dap img duqc thuc to di lam phat trier mot khuynh huemg ky thuat mOi de la ky thuat phat hien tri thirc va khai thic de lieu (KDD — Knowlefge Discovery and Data Mining)

icy thuit kham pha tri thfrc va khai pha de lieu da va dang duqc nghien ciru, img dung trong nhieu rinh Arc khac nhau 6 cac ntrerc ten the gieri, tai Viet Nam ky thuot nay tuong dOi con mai me toy nhien cling dang duqc nghien thuva din dua vao ling

dung Buerc quan trong nhat ctia qua tranh nay la Khai phi de lieu (Data Mining), giirp ngueri sir dung thu thip duqc nhung tri thirc heu ich tir nhung ca ser de lieu hoic cac nguOn de lieu khOng to khac Rat nhieu doanh nghiep Ara to chirc tre'n the giai da img dung ky thuilt khai pha de lieu vao hoot dOng kinh doanh ctia minh va di thu duqc

nheng lqi ich to Ion

Vi nhung IY do nhu viy nen chting em di ch9n de taithai pha du lieu va img dung SQL Server 2012"v6i mong mu6n tim hieu cac phuong phap, cac me) hinh, ky

thuat khai phi de lieu Dieu nay khong chi c6 tat dung 6 tat gee do nghien cuu IY thuyet ma con img dung thuc to din tren mot me hinh va kiim chimg tinh xac thuc ma

ky thuat khai phi de lieu dem lid Tir nhung kien thirc ca ban, dan sang tim hieu cac van de phirc tap lien quan den cac thuat Win khai phi du lieu Tuy chi la nhting mirc tim hieu ca ban, don &An nhung cling it nhieu de cap duqc den cac van de can ton tai

va kha ning cita img dung khai pha de lieu, dic biet la trong img dung he quan trj

CSDL SQL Server 2012

Trang 3

NOi dung bio ciao chuyen de tot nghiep bao gem:

Lori my diu

Danh !nye tir vier tit

Chuang 1 Tong quan ye khai phi de lieu

Chuang 2: Cie tic vu trong khai phi (M lieu

Chuang 3: Khai phi der lieu trong SQL Server 2012 Chuang 4: Ling dung khai phi de lieu trong SQL 2012 Ket luin

TM lieu tham khio

Trang 4

BANG it IOU VA CHU VIET TAT

KY hieu viet tit Nghia tieng anh Nghia tiang viet

OLAP Online Analytical Processing Xir ly, Oen tich der lieu ttvc

tuyen KDD Knowledge discovery in databases Kham pha tri thtic trong cac at

sa der lieu

SSIS SQL Server Integration Services Cac djch At tich hop ten SQL

Server ht3 trq khai pha de lieu ERP Enterprise Resource Planning Quin lY nguOn loc va tai nguyen

ctia doanh nghiep

ODBC Open Database Connectivity Ket not ca ser du lieu ma

Trang 5

MVC LUC

1.2.3 yang dbi caa mOt du an khai pha der lieu 5

1.3 Cac huang tiep can den van de khai pha der lieu 8

1.3.1 Kien irk caa mOt he thOng khai phi der lieu 8 1.3.2 Cac chirc rang chinh cua khai pha 80 lieu 10

1.3.4 Nhang van de kho khan trong khai phi der lieu 12 1.4 Xu huemg nghien cuu va viec *fig dung cua khai pha der lieu hien nay 14

1.4.2 (Trig dung coa khai phi der lieu trong thuc to 14 1.4.3 Ung dung cua khai phi der lieu trong viec giii guy& cac nhom bai

Trang 6

2.6 T6'ng hqp hem (Summarization) 26 2.7 M8 hinh h6a sv phv thuec (dependency modeling) 26 2.8 Phat hien stir Bien d6i va de Itch (Change and deviation detection) 27

CHUIZING 3 KHAI PHA Dir LItU TRONG SQL SERVER 2012 28

3.1.2 Cac khai niem co ban trong OLE DB cho Data Mining 30

3.2 Cac thuat toan khai phi der lieu trong SQL Server 2012 34

CHITONG 4 VNG DVNG KHAI PHA DC LIEU SQL SERVER 2012 41

4.1 GiOi thieu ve Business Intelligence Development Studio 41

Trang 7

TONG QUAN YE KHAI PHA DIY LIEU

CHUCFNG 1 TONG QUAN VE KHAI PHA Dir LIEU

1.1 Khii niem va khai phi d* lieu

1.1.1 GM thifu vi Mai plui chi Wu

Trong nhcmg am gin day, su phat then mph me ciut CNT'T va nganh ding nghiep phis cimg da lam cho kha ning thu nhap va Itru fru thong tin ciia cac thimg thong tin tang nhanh met cach cheng mat Ben conh do viec tin hoc hea met each 6 at

va nhanh chiong cac hoot dOng san xuat, kinh doanh cling nhu nhieu lInh Arc hog dOng khk di tio ra cho chimg to met lucmg de lieu luu tray Ichting 16 Hang trieu CSDL da dugc sir dung trong cac host dong san xuat, kinh doanh, wan trong do co nhieu CSDL cac len cot Gigabyte, thorn chi la Terabye So bang nay din tin ye'u cau cap thiet la can co nhung k9 thuit va ding cu mei de to Ong chuyen doi Wong de lieu khang to Ida thanh the tri thirc co ich Tir do, cac Id thuili khai pha de lieu di fro thanh met linh we then so dm nen cting nghe thong tin the giei hien nay

1.1.2 Dinh nghia vi khai pith dfr lifu

Phat hien tri thirc (Knowledge Discovery) trong cac co se du lieu la met qui trinh nhan biet the miu ho4c the mo Mob trong de lieu voi cac tinh fling: hqp thee mei, kha ich, va c6 the hiau duqc

Con khai thic de lieu (data mining) la men nge tuong del mei, no ra din vao khoang nhfrng nam cu & cua dun thap 4 1980 C6 nit nhieu djnh nghia khac nhau ve

khai phi de lieu Giao su Tom Mitchell da dua ra djnh nghia cita khai pha de lieu nhu sau:" Khai phi de lieu la viec sir dung da lieu lich sir de kham phi nheng qui tic va cai thien nhcmg quyet djnh tong tuong lai" Veri met each ti6'p c4r1 ling dung han, tien

si Fayyad da phat bleu:" Khai phi da lieu durang duqc xem la viec kham phi tri thirc trong cac co se de lieu, la meat qua trinh trich xuat nheng thong tin in, trues day chua hi& va co kha fling heu ich, duel ding cac quy luat, rang bu0c, qui tic trong co se du lieu" Con cac nha thong ke thi xem" khai phi da lieu nhu la min qua trinh phan tich dugc thiet ke tham do mitt luong coc len cac der lieu nhim phat hien ra cac miu thich hqp vil hok cac mOi quan he mang tinh he thing gifts cac hien va sau de se hqp thirc hoi cac ket qua rim duqc bing each ap dung the miu da phat hien duqc cho tip con mei cita de lieu"

A11500 — Nguyin Dec Hoing

Trang 8

TONG QUAN VE KHAI PHA DIY LI$U

N6i tom lai: khai pha 80 lieu la met buoy trong quy trinh phat hien tri thirc gom

co cac that town khai thic du lieu chuyen dimg dtrOi met se quy djnh ve hieu qua tinh town chap nhan duqc di tim ra cac mitt hoac cac me hinh trong dO lieu

1.2 Cic bulk trong khai phi do Ilea

1.2.1 Clic ki thuOt khan ph6 drr lifu

M3c du khai thic dfr lieu nhu lit met thuat nge tuong del mai, nhung hau bet cac

ky thuat khai thic du lieu da ten tai tong nhieu nim Ma tier than cita khai thic dur lieu deu xuat phat tir: thong ke, hoc may ya co so a lieu Mot so thOt town khai thic d0 lieu, bao gOm ca hOi quy, chugi that wan, va cay quyet djnh deu duqc phat minh boi cac nhi thOng ke hqc Ky thuorhei quy" CIA ton tai trong nhieu the kY Cac thuat toan"chuOi than gian" di duqc nghien ciru trong nhieu thap ky Thuat town thy quyet djnh la met trong nhieu k9 thuat gin day, co nien dai tir gifta nhUng nam 1980

Khan thic d0 lieu tap trong yao phat hien to (king ho#c ban qr ()Ong matt Met di

thuat town hoc may(machine learning) duqc lip dtmg cho khai thic dti lieu:

a Mang noron (Neural networks)

Day la mot trong nhftng icy thuat khai pha du lieu dirge ling dung ph6 bien Men nay K9 thuat nay phat trien dva ten ' met nen tang town hqc vtIng yang, kha nang h ' tan ' luyen trong ky thuat nay (lira tren mil hinh than kinh trong trong cita con ngu&i

Kat qua ma mpg naron hqc duqc c6 kha nang tao ra cac mo hinh dv bio, dv doin yeti de chinh xitc yi dO tin cay cao NO co kha nang phat hien ra duqc cac xu bluing phirc tap ma k9 thuat thong thubng Ichic kh6 c6 the phat hien ra duqc Tuy nhien phuong phip tnang no ron rat phirc tap yi qua trinh tien Minh no g#p rat nhieu kh6 khan: doi hoi mat nhieu thai gian, nhieu 80 lieu, nhieu Ian lciem tra thir nghiem

b Giii thuat di truyen

Li qui trinh m8 phong theo tier hoi cua tSr nhien Y Wang chinh cua giai thuat 11 dva vim quy luat di truyen trong bien dOi, chip Ice tv nhien yi tiers boa trong sinh hoc Viec xay dvng cac thuat town di truyen me phong sinh hoc nhim tim ra cac giii phip tot What bao gem cac btreic sau:

- Tao ra ca the ma di truyen dual long cac xau cita met bang ma lct tv han che

- Thiet lap mei tnrang nhan tao trorTh may tinh co cac giii phip co the tham gia"dau tranh sinh tO'n"veri nhau de zit djnh dO do thanh cong hay that

A11278 — Doan Thanh Gong A11500 — Nguygn Thic Holing Trang 2190

Trang 9

TONG QUAN VE KHAI PHA DIY LISU

- Phat trien cac"phep lai ghep" de the gild phip ket hqp vei nhau Khi do cac

rcau mi di truyen cua giii phip cha va mg bi cat di vi xep lai, trong qua trinh

sinh sin nhu vay cac kieu dOt bien co the duqc ap dung

- Cung cap mot (lull the cac giii phip ban diu tucmg d6i da long vi a may

tinh thqc hien"cu(ic chai tien hem" bing each loci be cac gal phip tir min ca

the va thay the chung bing cac con chin hoac cac dOt hien cua cac giai phip

bk Thu* wan se ket thitc khi mot h9 cac giiti phip thinh citing duqc sinh ra

Khai phi de lieu (KPDL) la viec frith chcm d.3c trtmg MI lieu mot each ty doting

tir mot Si dii lieu 16n Tri thin do thtrimg o cac ding maw c6 tinh chat khong tam

thuong, An (khong twang minh) nhung 13i co the mang 13i ich lqi lam neu no duce sir

clung dung chi) Co the coi KPDL 11 cot lai cfut qua trinh phat hien tri thac trong co so

dii lieu (Knowledge Discovery in Databases — KDD)

1.2.2 Luling di lifu

Khai thic der lieu la mot trong nhUng thanh vien quan trong trong data warehouse

family Trutmg hqp khai thic dft lieu nio la phu hqp veri dien kien ctla cac luOng der

lieu trong mot kith bin kinh doanh dien hinh?

Hinh sau minh h9a mot luting dir lieu doanh nghiep dien hinh ma khai that der

lieu co the duqc ap dung trong cac giai down Ichic nhau

-4 ill P-

O ♦ 4

Online transaction Processing (OLTP)

Onlbe

••■ Analytical Processing

Hinh 1: M6 hinh khai phti du lieu doanh nghiep

A11500 — Nguyln Dire Hoing

Trang 10

TONG QUAN VE KHAI PHA Dir

Met ung dung kinh doanh luu till the dt1 lieu giao Bich trong met ca so &I lieu

bb 15, giao djch true tuyan (online transaction processing- OLTP) Cie clit lieu OLTP duqc chiet xuat, chuyin doi va nap vio data warehouse met each thuong xuyen Luqc

itO Gila data warehouse thuimg khic nhau tir met luqc 46 OLTP Met lucre d6 data

warehouse dk tnrng cob hinh ding du met ngoi sao hay met bong tuyet.V6i bang giao djch o chinh gifta luqc 46 va dtrqc bao quash bei met be dimension tables(cic bang kich thubc)

Tnnk lien, vi ph6 hien nhit, khai that dO lieu co the duqc by dung cho cac kho

dO lieu nth ma dft lieu di duct lim mtch Cac miu duqc phat hien bed cic mo hinh khai thic c6 the duqc trinh bay cho cite nhit quan lt tiep chi thong qua the bio cao

Khai thic dft lieu co the c6 met lien ket true tiep den cic ling dung kinh doanh, ph6 bien nhit la thong qua cac du doin Nh(mg khai thic dft lieu vio ling dung kinh doanh dang ngay met phO bien han

Vi du: Trong met kich bin bin hang qua Web, met khi met khach hang dit met sin vio trong gio hang, met du bao troy van khai thic der lieu duqc thuc hien de c6 duqc mot danh sich cic sin phAm duqc de nghj dua tren phin tich

Khai thic du lieu cling co the duqc cip dung de pit tich kh6i OLAP, la met cc

so du lieu da chieu ved nhieu kich thubc vi don vi do Kich thy& c6 the len den hang trieu bin ghi do d6 se kho khAn cho vier tim ra mo hinh quan tan Ky thubt khai thic

dO lieu c6 the duqc ap dung de kham phi ra cac mo hinh an trong met khoi OLAP

Vi du: Met thulit than lien ket co the duqc bp dung cho mot Ich6i ban hang, phin tich mau mua ctia khich hing cho met vimg cµ the va then gian Chling to c6 the ip dung ky thubtIchai thic dO lieu de du bao cac bien phip nhu ban hing vi lqi nhubn

A11500 — Nguyin Due Hoing

Trang 11

Gathering

TONG QUAN VE KHAI PHA D() LISU

1.2.3 Yong did min m#t dv tin Heal phd dit

Selection Preto-ton I — Dot i' rin,

Alli I erarafra" Dlia

qp- Cleansed

Preprocessed 4r Target 14 Warted

Data

Data

Hinh 2: Yong doff aia men dv an khai phti du lieu

a Gom du lieu (gathering) va Trich lqc du lieu (selection)

Gom du lieu: Tap hqp du lieu la boat dau tien trong khai phi du lieu Busk nay lay du lieu tir trong mOt co so de lieu, mOt kho dft lieu, them chi di' lieu tir nhimg nguon cung Ong web

Trich lqc du lieu: O giai down nay du lieu duqc lira chon va phfin chic theo mOt

se lieu chuan nao d6

c Lam sach va tiers xir 15r der lieu (cleansing prepocessing)

Lam sach de' lieu: Day la qua trinh xir ly a ga be hoac lam giam nhieu vi each xir 15, cac gia tri khuyet Burk lam giarn su mop mer khi hqc

Phan tich stir thich hqp: Nhieu thuOc tinh trong du lieu co the khOng thich hqp hay khong can thiet de phan loai Vi vay phop phan tich sar thich hqp duqc the hien teen der lieu veri muc dich ger be bat lck nhung thuOc tinh khong thich hqp hay khong

can thiet Trong hqc may bait nay duqc gqi la trich hoc dac tnrng Phip phan tich nay

giup phan loci hieu qua va nfing cao kha rang ma rung

A11500 — Nguyen Dirc Hoang

Trang 12

TONG QUAN VE KHAI PHA Dti

Giai doan nay la giai don hay bj sao ling, nhtmg thuc 4 no la med buck rat quan trqng trong qua trinh khai phi de lieu M6t s6 16i thubng mac phai trong khi gom de lieu la de lieu khong day du hok khong thong nhat, thieu chit chi Vi 4y du lieu thubng chfra cic gia trj vo nghia va kh8ng co kha ning kit not du lieu, vi di; Sinh vien

co tuai=200 Giai doan nay nh&m xir ly cac de lieu nhu tren (de lieu vo nghia, de lieu khong co kha fling kit nai) Nheng de lieu ding nay thubng duce xem la thOng tin du thin, khong c6 gia tq Bed viy day li mOt qua trinh rat quan tong Neu de lieu khong duqc lam such - tiers xi: ly - chuan bj threw thi se gay nen nheng kit qui sai tech nghiem tang ve sau

d Chuyen d6i de lieu (tranformation)

Trong giai doan nay, de lieu co the duqc to chile va sir dung lai Muc dich ctia viec chuy'en dal de lieu li lam cho de lieu phit hqp han veri muc dich khai phi de lieu

De lieu co the duqc tong quit him teri cac mirc khai niem cao han Dieu nay rat him ich cho cac thuk tinh co gia tr1 lien tuc Vi du, cac gia trj so cua thuk tinh thu nhip duce tang quit hoa sang cac pham vi rai rac nhu thap, twig binh va cao Tuang

Ur, cac thutjc tinh gii trj nhu dtrimg ph6 dirge tong quit hoa ten khai niem cao han nhu thinh ph6 Nher do cac thao tic vio/ra trong qtth tint' xir li se it di

De lieu co the duqc tieu chuan h6a, &lc biet khi the mpg na-ron hay cac phuong phap dung phep do khoing each trong cac buck xir H Tieu chuan hoa bien dot

theo ty le tat ca cac gia trj cita mOt thuk tinh cho truck de chfmg rai vao pham vi chi djnh nhu [-1,0;1,0] hay [0;1,0] Tuy nhien dieu nay can cher cac thutjc tinh co pham vi ban &anion (nhu thu nhip) co nhieu inh huerng dal veri cac thuk tinh c6 pham vi the) han ban dau (nhu cac thuk tinh nhj phin)

e Phut hien va trich mau de lieu (pattern extraction and discovery)

Day la butc to duy trong khai phi de trong giai doan nay nhieu thuit toan khac nhau di duqc sir dung de trich ra cac man tir dft lieu Thuit town thubng dimg de trich man de lieu li thuit town phan loci dir lieu, kit hqp MI lieu, thuit town ma hinh hoa de lieu min ur

Li mOt trong cac buerc quan IA:mg nhat vi tan thin gian What cita qua trinh KDD, trong d6 sir dung nheng phuang phip thong minh de chat Ice ra nhimg nth dt1 lieu Chu yeu la cac k9 thujt ciut machine learning (hoc may) de khai phi, trich chon nheng

mau (patterns), cac rang bu6c lien he (realionships) biet trong dit lieu

A11278 — Doan Thanh Cong A11500 — NguyIn Dim Hoing Trang 6190

Trang 13

TONG QUAN VE KIIAI PHA Din Lieu

C6 the cac mo hinh khong china cac mau c6 the sir dung Co the la dft lieu hoin than ngiu nhien hoc dft lieu c6 qua nhieu thong tin gay nhieu Dieu nay you cau can phai lap lai cac buoy lim sach vi chuyin doi dft lieu de chit lqc ra cac dft lieu c6 nghia ham Day la met qua trinh lap lai vi tot dill len de dtra ra cac th6ng tin phi' hqp, coy nghia yeti ngtrai quan trf

f Dinh gia ket qua ink vi bleu dien tri thirc (evaluation of result and Knowledge presentation)

Day la giai doan curfoi sung trong qui trinh khai pha &I lieu, a giai doan nay cac matt dft lieu duqc chiet xuat ra bai phan mem khai phi du lieu KhOng phai man der lieu nao cling hftu ich, d8i khi no can bi sai tech Vi vay can phai dua ra nhiing lieu chuir' danh gia do uu tien cho cac mttu der lieu de rut ra duqc nhemg tri link can thiet Bieu dien tri thfrc: sir dung cac kgr thuit de bien dien vi the hien tivc quan cho nguiri dung Cac citch bieu dien nen a clang gait gui vi de hieu vai ngtriri dung nhtr clang dri thj, cay, de dua ra cac bio cao gulp ngtreri quan tri co the dua ra cac quyet djnh mang tinh chat quan tong

1.2.4 Chain khai phsi din life

SAS: la nhit cling cap san pham khai phi de lieu tau uhit 4 mat thi phan Dung

dau trong linh vuc thOng ke trong nhieu thop kY Co sa SAS chira met be rat phong pith cac chile ning thOng ke c6 the duqc sir dung cho tit ca cac loai phan tich din

Ho trq khai thic van ban, moi tnrimg di) hqa di xay dung cac mg hinh, co cac thuat toan khai thic dit lieu phi') bier nhu: cay quyit djnh, mang naron, hOi quy

SPSS: gOm cac san pham khai thic &I lieu nhu"SPSS base"vrAnswer Tree

Ke thira gOi khai thic dft lieu Clementine — mot trong nhiing cong ty Mu lien gith thieu cac khii them luOng khai thic dft lieu, cho phip ngtrai ding lam sach dft

chuy'en dOi der lieu vi thvc hien cac mo hinh thin nghiem

IBM: sin pham khai thic dft lieu la Intelligent Miner a Disc N6 chira mitt tap hop cac thuat than va cac cling cu tnrc quan Dun ra nhiing me hinh khai thic du lieu trong Predictive Modeling Markup Language (PMML) PMML la cac file XML chira

me to cim cac matt me hinh vi so lieu thong ke cua cac dirt lieu mau vai !nue Bich du bao

Microsoft la nha cung cap dft lieu chuyen nghiep dau lien bao gilm cac tinh ring khai thic trong met ca se der lieu quan he SQL Server 2000 c6 hai thuat toan khai thic dft lieu la: Microsoft Decision Tree vi Microsoft Clustering Vai cac phien bin

A11500 — Nguyen Dim Hoang

Trang 14

TONG QUAN VE KHAI PHA DIT LI$U

tiep theo cua SQL Server la 2005, 2008, 2012 cic tinh rang khai phi co kr chi lieu ngly cang duqc rang cep va sin phew ctia Microsoft ngly cang chiem linh thj truang Oracle: Oracle 9i twit xtremg vao nim 2000, oft met cap thu#t town khai thic du lieu dtra tren association (141 kit hqp) va Naive Hayes Oracle lOg bao gam nhieu cong cv va thu#t toin khai thic de lieu hon Oracle cling kit hqp veri Java Data Mining API la gai phin mem cho khai phi der lieu

Angoss: chit yeu xay (tong ck th41 toin decision trees, cluster analysis vi cic

me hinh du doin cho phep nguiri dung hieu de lieu ctia ho tir nhieu quan diem khic nhau Cic th4t win duqc ha trq ben cong co troc quan manh me et4 giii thich flitting tri thirc khai phi duqc, n6 ding liun viec tot vai cic lien ich cita he quan trt Microsoft SQL Server

KXEN: cung cep mot s6 thuol town khai phi de lieu nhtr: SVM, regression, time series, segmentation Va cic giai phip khai phi de lieu cho khei OLAP Ngoai ra, cung cep tien ich Excel add — in de khai phi di lieu trong moi truerng Excel

1.3.1 Kiln Ink Su min he thing khai phd Aar Mist

Co se du lieu: gam kho de lieu hoc ck cich luu tra thong tin khic (Database, data warehouse, worldwideweb, information repositories) Day la mot hay mot tip cic CSDL, cic kho der lieu, cic trang tinh hay ck dung luu tre thong tin khic.Trong nheng tinh hung co the, thanh phan nay la nguan nh#p (input) dm ck kt thuftt tich hqp va lam such de

May chit CSDL hay may chti kho dit lieu (Database or Data warehouse server):

may chit nay c6 trich nhiem ley nhemg de lieu thich hqp dtra tren cic you aulchai phi cua ngtroi dung

A11500 — Nguyen Dire Hoang

Trang 15

TONG QUAN VE KHAI PHA DIY LltU

Giao difm ad hos wen Wog

Ulm !nog miu

May khai phi da , liiu

May chi' CSOL hay kho dat lido

Lim each yi doh hqp SY lido

Co so de , lido Kho canidu

danh gia the mau ket qui duqc tim they Ca sa tri thirc c6 the 11 the phan cap khai niem, niem tin ciia ngutri sir dung, cac ring but* hay the ngtrecng gii tri, sieu &I lieu

ming thuc hien tac vu khai phi da lieu nhu: die trung h6a, ket hqp, phan lop, phfin cum, phan tich su tien

vio thinh phan Data mining engine NO co the dung cac nguOng ve do quan tam de 19c mau da kham phi duqc Cling co the module danh gia mau duqc tich hqp vio module khai phi, toy theo su cii dit ctia phucmg phip khai phi duqc dung

Wang tic gift nguai sir dung vi he thing khai phi du lieu

- Nguiti sir dung co the chi djnh cau troy vin hay tic vu khai phi du lieu

- Ngubi sir dung co the duqc cung cap thong tin ha my vies tim kiem, thuc hien khai phi du lieu saw hcm thong qua cic ket qui khai phi trung gian

- Ngtroi sir dung sung co the xem cic Itrqc dO co s6 dit lieu/kho der lieu, cac eau trite chl lieu; dinh gia cic mau khai phi duqc; true quan hea cac mau nay a cic clang khic nhau

A11500 — Nguyen Disc Hoing

Trang 16

TONG QUAN VE KHAI PHA Dir tau

1.3.2 Clic chic sang chills ciao Mai pho dile lieu

Cac chfrc nang nay duqc the hien qua

a Dac trtmg hem va phan biet:

Dac flung h6a 11 viec tong ket town b0 the dk diem hay cac tinh chat chung cua mot lop du lieu dich DO lieu d6 twang Ung veri mot kip do ngtthi dung dac ta bang mot cdu truy van CSDL DO lieu tra ve ctia qua trinh ddc hung hem co the &the bieu dien bang nhOng khuon ding khic nhau

b Phan tich sv ket hqp:

La kham pha ra cac luat ket hqp trong mot tap lern dO lieu Cac IWO ket hqp the hien m6i quan he glad cac gia tri thuOc fink ma ta nhan thdy duqc to tan suat xuat hien ding veri nhau

Cac ludt ket hqp duqt kham phi to mot tap lern cac ban ghi giao dich trong kinh doanh vi nhOng luat coy nghia co the gitip cho cac nha doanh nghiep ra quyet dinh

c Phan lop va dtr down:

Phan lop la qua trinh tim mot tap cac m8 hinh (hoac cac clue= nang) m8 ta va phan biet cac lop du lieu Ck mo hinh nay se duck sir diving cho ink dich dv doin ve lop cua mot s6 d6i twang

Vi'ec xay dvng m8 hinh dva tren sv phan tich cita mitt tap cac dir lieu huan luyen,

mitt m8 hinh nhu vay co the duck bleu dien trong nhieu Bang: ludt phan 16p, cay quyet dinh hay mpg naron

De phan lop vi dv doin co the thvc hien tunic mot sv phan tich thich hqp Sr phan tich d6 nhitm xac dinh nhOng thutjc firth kheng tham gia vi qua trinh phan lop vi

dv down, cluing se bi loai tth sau buerc nay

d Phan cvni:

!Chong gating nhu phan lop vi dv down, phan cvm se phan tich cac dai twang clit

lieu khi chua biet nhan cfia lop

Sr phan cvm co attic dich nh6m cac dEti tuqng lai then nguyen Cac d6i twang trong ding mot nhom giot ng nhau a mt.= cao nhit vi cac d6i thong khac nhom giting nhau it nhat

e Phan tich phan ter ngoai cuOc:

A11500 — Nguyen Mc Hoang

Trang 17

TONG QUAN VE ICHAI PHA Dli LL$U

Min so CSDL c6 the china cac din wag du lieu khong tuan theo me hinh der lieu, nhiing del tuqng nhu viy gel la phin tin ngoai cuOc

Hiu het cac phuong phap khai pha der lieu deu coi phin tin ngoai cuec la nhieu va loii be chung.Tuy nhien trong met se ling dung nao d6 nhu phat hien nhieu ching han, cac str viec hiem khi xay ra lai duqc quan tam hon nhting gi thuirng xuyen phai

Sr phan tich du lieu ngoai cuOc xem nhu la sr khai pha cac phin tin ngoai cuoc C6 met so phucrng phap de phat hien phAn tir ngoai cuOc: dung cac test mang tinh thong k8 tren co so met gia thiet ve phan phoi du lieu hay met me hinh xac suit cho dit lieu, dung cac phucmg phap dva ten dt) tech di kitm tra sv klik nhau tong nhcmg

di c trung chinh cita cac del tuqng tong met nh6m

1.3.3 Cdc dong dfr lit'u cti thi khai plod

Nhu chimg ta di biet, tri thirc cua nhan loci la tong hoa cua cac mot quan he, lien quan met thiet, logic yeti nhau va duqc hat tnlr duoi clang du lieu thy du lieu kia.Trong thvc to c6 rat nhieu me hinh co so de lieu, my nhien trong cac linh vvc Ung dung cy the khac nhau, chung ta c6 the dinh nghia va phan biet ra rat nhieu ding du lieu sao cho thuin lqi nhAt tong qui trinh sir dung Khai pha du lieu c6 kha ning chip nhin met se kik' du lieu sau:

Ca so du lieu quan he (relationnal databases): la cac dit lieu duqc to chat theo

mo hinh clft lieu quan he fit phe hien trong nhieu nginh Do d6 hiu het cac he quan tri

cc se dir lieu dEu he trq dung co sa du lieu quan he nhu Oracle, MS SQL Server, IBM DB2, MS Access

la clang dft lieu tac nghiep c6 cac ban ghi that:mg la cac giao tic Dang du lieu nay cling phe hien hi'c1/41 nay

Ca set dit lieu quan he - Wong dei tuqng (object relational databases): la clang du

lieu lai giera hai me hinh quan he va hut:mg del tuqng

Du lieu khong gian, thoi gian va chuti thoi gian (spatial, temporal and time series data): la clang de lieu ca tich hop thuoc tinh ve khong gian dit lieu nhu dit lieu

ban at mang cap dien thoai hoic thiri gian nhu dft lieu ark dien thoai, phat hanh bao chi, chi se chimg khoan

A11500 — Nguyen Dirc Holing

Trang 18

TONG QUAN VE KHAI PHA Dir tau

Ca so' du lieu da phieang tien (Multimedia databases): la dang de lieu am thanh,

hinh inh, text & WWW Dang de lieu nay nit phong phit, da dang va duqc phi') bien rOng rdi, nhAt la tr'en intemet

1.3.4 Nhung vin di kho khan trong khai phi dir Iteu

a VAn de ve Ca SO De Lieu

DAu vao dm met he thong khai phi de lieu thuang la tap cac de lieu the, so nhieu Inc kh6ng dAy dit va 131 nhieu Ngoai ra trong thvc to de lieu lai luon bien dong khong ngUng va duqc b6 xung lien fix tao thanh mot Itnyng de lieu Ichiing to chira ding ca nheng th8ng tin c6 ich va khong c6 ich Chinh vi voy trong bAt kY met he thong khai pha da lieu nio viec dAu fien can lim la phin tich va xem xet co se de lieu ma he

thong khai phi

b Co sa de lieu lot

Viec sir dung cong cu phan tich true tuyen khong khai thic het duqc nhemg thong tin dm CSDL hien the& chinh vi v'ay nheng floral xir ly de lieu khong con each nao khk la Itm de lieu lai de phuc vu cho muc dich sir dung sau nay Der lieu dtrqc hru chira dung ca thong tin co ich va vo ich Viec tich ley nay ngay tang len va cho den nay cac CSDL tai hang trieu ban ghi c6 kith think len den Tetabytes Tity timg img dung cu the, viec lam nhu nio de loai 136 de lieu china, nheng thong tin ve nghia lai c6 nheng each khic nhau Vi vOy phucmg phip xir lY de lieu het sire da clang va phirc tap, khong co met quy tic chung cho moi irng dung

c SO chieu dit lieu Ian

Tip de lieu thvc chat la mot tap cac so do tar mei tnrang hok qua trinh Twang hqp don gian that, chimg to co tap hqp cac dOi ttnyng, moi del tucmg co mot tap p se

do SO do chinh la thuec firth dm dive the (dti tam, ban ghi ) Cimg vet you au cim thOng tin la da clang va dAy do ma de, lieu can luu duqc thi se Itrottg thuOc tinh cfmg can phai nhieu len MOi thuOc tinh co the &Km cm la mot chieu trong khong gian CSDL Chinh vi the se chieu cita bai town trong he khai phi de lieu ming rat len MOi tap du lieu c6 so chieu Ian se lam tang khong gian tam kitm cea mo hinh Bien phap khic phut vim de nay la phai giam s6 chieu cea de lieu can khai pha va sir dung cac tri thirc ca sin de" loai be, nheng bien Wong pho hqp

d Du lieu thay dei lien Ate

A11500 — Nguyen Dire Holing

Trang 19

TONG QUAN VlE KHAI PHA Div LIEU

Hau ha cac CSDL c6 n6i dung thay d6i lien tic theo thai gian va gay ra he qua

la viec khai phi du lieu bj anh hiking tai theri diem quan sat du lieu Viec thay dbi dit

lieu nhanh cheing co the lim mat gii trj cue cac min truck do, lion nfra cac bien trong

CSDL city img dung dA cho cling bj thay da, bj x6a hok bj tang len theo thbi gian

e Cac thu6c tinh der lieu khong phu hqp

MOt dk diem quan trong cue CSDL la tinh khong phu hqp cue dr lieu Nghia la rinic du lieu tit thinh khong thich hqp veri y nghia hien tai cita viec khai pha Mq't khia canh lchic aim tinh khong phu hqp cua thu6c tinh do la gia trj cue thuOc tinh do khong phin anh duqc y nghia hien tai ma chi thich hqp trong lich sir cue no

f Dit lieu khong day di*

Viec thiEu hut khong day du 6 day bao ham ca su khong day du ve gia trj va

thuOc tinh coa dll lieu Su co mat hay khong c6 tn4 elm gia trj cac thu6c tinh phu hqp inh haring rat 16n den viec khai phi der lieu Viec quan sat khong day diz mat CSDL den den dua ra cac Met luon sai lam, tri thirc khai phi duce co the sai tech veri thuc

g Ck van de khic

Der lieu bi nhieu: ngoli viec du lieu bj 161, khong day dd thi ban than du lieu cling

tier!) An kha nAng bj nhieu

Van de Overfilling: Vii cac he thong khai pha der lieu theo mo hinh hqc giam sit,

tiro la hoc theo tri thirc dA biEt auk, khi do viec khai phi du lieu co the se xay ra tinh trong qua phi' hqp veri Met qua dA Met Nghia la ket qua cita mo hinh phu hqp vai tap dit lieu hart luyen nhung lei khong this stir dua ra cac tri thirc tot theo nghia img vai tap der lieu kiem tra BE khic phuc tinh twig nay thtrang phai thuc Men them viec kiEm tra cheo (cross validation) dE dinh gia m6 hinh, ho*c sir dung Men phip thong ke

'Chi sing tich hqp vai he thong khic: Mdt ling dung de dat duqc hieu qua cao va

link ho.t can co kha ning tich hqp veri cac he thong khac Nhtmg tre'n dive to viec nay

A11500 — Nguyen Dire Hoing

Trang 20

TONG QUAN VE !GUI PHA DI! LIEU

kha kho khin trong cac he khai phi de lieu Dieu fly xuat phat tir chinh trong cac 1c9 thuit khai phi de lieu li phai xiy clung *It mo hinh pha hqp de tim ra cac min du tnmg

1.4 Xu hiring nghien cfru vi vier irng dung cis khai phi d* lieu hien nay

Khai phi de lieu li mot vvc mai vi mic de can rat nhieu van de chug duqc nghien ciru melt cic chgon vgn, nhung tiem ning vi khi ning ang dung caa no rat cao

vi di duqc chimg minh qua nhieu Ling dung thvc te Hien fly co mot so huemg nghien ciru ma khai phi de lieu quan tam den:

OLAM (Online Analytical Mining): li sr tich hqp gala CSDL, kho dir lieu vi khai phi de lieu MOt s8 he ca sec a lieu hien nay nhu Oracle, MS SQL Server da tich hqp xiy citing kho de lieu vi phan tich tnrc tuyin (OLAP) Nhcmg tinh nang nay duqc

he trq dtrai dang cac Ong cu di kem vi nguai sir ding phii mua de sir dung

Cac nhi nghien eau trong rah vvc CSDL can mutin co them sv tich him giea CSDL, kho de lieu vi khai phi dir lieu Khim phi duqc nhieu tri thirc khic nhau tit cac kieu de lieu Ichic nhau Tinh chinh xac vi hieu qua, kha ning ma ring vi tich hqp,

xir ly de lieu bt nhieu, khong day da vi tinh c6 ich cira tri thirc duqc khim phi Van de non ngO troy van trong khai phi dit lieu phii cung cap cho ngtrai sir dung mot neon nge thuin lien, gait gfri nhu SQL trong CSDL quan he

Khai phi de lieu di duqc ling dung rat thinh tong trong CSDL thi trubng Day li

mot phtrong phi phan tich CSDL khich hang, tim kiem cac man trong sot cac khich hang vi sir dung cic ink nay de Iva chop cac khich hang nem ning trong tucmg lai Tap chi Business Week caa my da dinh gii co ham 50% cic nhi bin le dang vi c6 (lath sir dung CSDL thI taking cho host dOng kinh doanh tea ho Cic ling dung khac tea khai phi de lieu trong kinh doanh nhu phin tich tht tnkmg chimg khoin, phin tich van kien tai chinh, phan tich vi bio cao cac thay doi de lieu bin hang sieu chi

1.4.2 Ong dyng csia khai pith der Wu trong Myr ti

Khai phi do lieu lien quan den nhieu nginh nghe, nhieu Iinh Arc nhu: thong ke,

tri tue nhan tao, he chuyen gia, CSDL, thuit town, tinh song song Meat he thong khai

khic nhau Diem chung giea cic he thong nay la tau trich rat tir cac kho de lieu co kith thuerc rat lem

A11500 — Nguyen Dirc Hoing

Trang 21

TONG QUAN VE ICHAI PHA Do- tau

Khai pha dit lieu duqc sir dung trong rat nhieu cac linh vtic khoa hue, kinh doanh :

Bao hiem, tai chinh va chimg khoan: a day khai pha dit lieu co nhiem vµ phan tich tinh hinh tai chinh, dg bao gia, chi se cac loai co phieu, phan tich du lieu the tin clung phat hien gian lan tai chinh

Thong ke, phan tich dit lieu ha trq ra guy& dinh: dtra vao s6 lieu c6 sin, phan tich dit lieu de dua ra nhi-mg quyet dinh dung luc, co lqi nhat

Dieu trj y hoc, chain sec y te: mot so thong tin ve chuin down benh km trong he thOng quan l$, benh vien, tit do phan tich mOi lien he gifta cac chirng benh, chuin down benh de dua ra phuong phap dieu trj

Test Mining va Web Mining: phan 16p van ban va cac trang web, tom tit nOi dung van ban, tir do co the Whom cac van ban, trang web theo clang chi de, lqc be cac trang dOc hai

Quin trj mpg, phat hien truy cap bit thuerng: Phan tich der lieu troy cap de phat hien cac truy cap bit thirimg hay cac truy cap veci muc Bich xAu

sanh cac he gene va thong tin di truyen

1.4.3 ling dyng cite khai phd dir1ifu trong Wee gitii quyit Sc nhom bei Win kink doanh

Phan tich khach hang: Nhitng khach hang nao co nhieu kha nang chuyen sang

bao dien thoai moi tieu tan khoang 200$ diu to tiep thj Chuan analysis c6 the the gulp cac nha quitn ljr tiep thj hi'eu duqc 15, do thay doi caa khach hang, cal thien quan he khach hang, va can ding tang khach hang trung thanh

Ban hang cheo: Nhimg san phan nao la khach hang co the mua? Cross-selling la mOt thach thirc kinh doanh quan tong cho cac nha ban le Nhieu nha ban le, dk biet la cac nha ban le trrc tuyen, sir dung tinh fling nay de tang doanh se ban hang cila hce.Vi

dv, neu ban ghe tham cira hang sach truc tuyen Sur Arnazon.com hay Barnes and Noble.com de mua mOt cam sach, ban c6 the nhan thiy ring cac trang web nay cung cap cho ban mOt tap hqp cac kien nghj ve sach lien quan Nhitng khuy'en cao nay co the dirge bit nguen tit viec phan tich va khai thac di: lieu

A11500 — Nguyen Dirc Hoang

Trang 22

TONG QUAN Nit KHAI PHA Hos tau

COng ty bao hiem xir 15, hang ngan tuyen ha mit ngay Khong de ding cho ho de dieu tra tirng tnrOng hqp Khai thic du lieu co the glop xac djnh nhimg you cau ma nhieu kha nang la sai

Day la cau hoi ph6 biEn nhat trong kjch ban ngan hang K9 that khai thic de lieu co the duqc sir dung de diem mirc di rdi ro ctia khach hang, giap quan 15, din ra quyet

djnh thich hqp cho mai img dung

nha quan 15, dap thj hieu duqc cat cau hinh khac nhau cim khkh hang va c6 nhimg Milli ding tiep thj phi' hop dtra ten cat phan loci

truy cap cp the? Web ban le va cac trang web cling thong tin nhu de ca nhan hoa nii dung dm ho cho khach hang Su dung dieu htrOng elm khach hang hoc cac m6 hinh mua hang trot tuyen, cac trang web nay c6 the sir dung cac giai phap khai that di: lieu

de hien thj mix tieu quang cao cho rnmc dich cim khach hang

K9 that khai that da lieu du bao c6 the duqc sir dung de tra lai nhimg cau &Si lien quan den thOri gian

A11500 — Nguyen Bac Hang

Trang 23

CAC KY THUAT KHAI PHA Hy LIEU

CHUtING 2 CAC Kt THUAT !MAI PHA DO' la

Cac 1C9 thuat khai pha de lieu thoc chit khong ca gi med N6 la so ke thin, kit hqp va ma rong cua the kg thuat ca ban di &nye nghien ciru tir truerc nhu hqc may, nhan clang, thong ke (hei quy, phan loci, phan nhom), cac me hinh de tht, mang bayes, tri tu'e Stan tao, thu thap tri thirc he chuyen gia Tuy nhi'en, lied so ket hqp tai tinh

cua khai pha du lieu, Icy thuat nay c6 tru the han hin cac phuang phap truerc do, dem lai nhieu teen vong trong viec phat trien nghien thu khoa hqc ding nler ap ding thoc tien va no co the dirge Chia lam 2 nhom chinh sau:

Ky thuat khai pha de lieu mo ta: co nhiem vu mo to ve cac tinh chit hoac cac dac tinh chung caa der lieu trong CSDL hien co Nham kg thult nay gem cac phuang phap: phan nhom, king hqp, phat hien so teen dei va de tech, phan tich luat ket hqp

Ky thuat khai pha du lieu do down: co nhiem vu dun n cac do down doa vao suy dien teen der lieu hien that Nhom kg thuat nay gem cac phuang phap: phap lop, hei quy

2.1 Peen lop de lieu

2.1.1 Ma hinh phon cay quyit dJnh

cua cac bien duct bieu dien beri dtremg di tir nut gee tai nut la de Ky thuiit hoc may dung trong cay guy& deth dirge goi la hoc bing cay quyet dinh, hay chi gqi veri tai ten ngin gon la cay quyet dinh

Vi du: Cay quyet dinh phan lap mire twang

A11500 — NguyIn Dec Hoing

Trang 24

CAC KY THU4T KHAI LIU

salary

Hinh 3: Vi du ve cay quyet djnh

b Cac kieu cay quy& dinh

Cay quyet djnh con co hai loci:

- Cay hei quy (Regression tree): uec luang cac ham c6 gia trj la se thuc thay vi

duqc sir dung cho cac nhiem vu phan loci (Vi du: Sc tinh gia met ngoi nha

hoac khoing thiri gian met benh nhan nim vien.)

- Cay phan loci (Classification tree): niu y la met Men phan loci nhu: gioi tinh

(nam hay n0), ket qua cita met tran du (thing hay thua)

c diem cita cay quyet djnh

So vei cac phuang phap khai pha der lieu khac, cay quyet dinh la phuang phap c6

met se uu diem:

- Cay quyet djnh de hitu Ngutri to co the hieu and hinh cay quyet djnh sau khi

duqc giai thich ngin

- Viec chitin bj du lieu cho met cay quyet djnh la co ban hoic kb:mg can thiet

Ck k9 that 'chic thutmg dei hoi chuin hea du lieu, can tao cac bien phu

(dummy variable) va loai 136 cac gia trj rang

- Cay quyet dinh co the xir IS/ Ca der lieu co gia tri bing se va dit lieu co gia tri la

ten the loci Cac kji thuat khk thueng chuyen de phan tich cac be dit lieu chi

gem met lout bier Ching han, cac luat quan he chi 05 the dimg cho cac bier

ten, trong khi mang na-ron chi co the dung cho cac bi'en ca gia tri bing se

A l 1500 — NguyIn Dec Hoing

Trang 25

CAC KY THU4T KHAI PHA Did LIVU

- Cay quyet djnh la met mo hinh hop tring Mang no-ron la met vi du ye me hinh help den, do lai giai thich cho ket qua qua phirc tap de co the hieu duqc

- Co the thim djnh met ma hinh bang cac kiem tra thOng ice Dieu nay lim cho

to c6 the tin Prang vao mo hinh

d Phan km de lieu bing cay quyet djnh

Phan lap dua ten cay quyet djnh rat thich hqp cho viec khai phi de lieu vi cay quyet djnh co cau tnic don gian, de hieu vi co the duqc xay dung lcha nhanh tir cay

quyet djnh co the a ding rat ra cac 141

Quy nap cay quyet djnh la met qua trinh hqc tip coa cay quyet djnh tir cac phan 16p coa be di) lieu huin luyen (training tuple) Met cay quyet dinh la met bieu do ding

de lieu nhu ciu trim cay, moi nut trong (khang phai la) mpg ttung cho met thuec tinh kiem tra, mOi nhanh dai then cho ket qua ctia viec kiem tra, va moi nut la (hay nit giai hen) gift met lop phan Nut diu fien ten cay la nut gOc

Qua trinh phan 16p de lieu thong qua 2 buoy co ban nhu sau:

- Xay dung me, hinh tir tip huin luyen

- Sir dung ma hinh, kiem tra tinh thing din dm mo hinh va dung no de phan lop

do lieu mei

e Xay dung cay quyet djnh

Xay thmg cay quyet dinh deu duqc chia ra lam 3 giai (loan co ban:

- ray chmg cay: Thuc hien chia met cach de quy tip mau de lieu huat' luye'n cho den khi cac ink a mai nut la thuOc ding mot lop

- CM tia cay: Li viec lam ding de tOi uu hoa cay Cit tia cay chinh la viec tren met cay con vao trong met nut la

- Dinh gia cay: Dung de danh gia de chinh xac caa cay ket qua Tieu chi dinh gia la tiring so mau duqc phan lap chinh xac tren king s6 mau dua vao

2.1.2 Mil hinh phiin ldp dB lieu Bayer

a Gieri thieu

Nạve Bayes la phucmg phap phan loth dua vao xac suit duqc sir dung rOng rai trong lint) vim may hqc [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], duqc sir dung lin dku tien trong 14th vuc phan loth bai Maron vao nam 1961 [Maron, 1961] sau do

A11500 — Nguy4n Dire Hoing

Trang 26

ter nen phO bien dimg trong nhieu linh Arc nhu trong cac cong cu tim kiem [Rijsbergen et al, 1970], cac be, luc email [Sahami et al, 1998]

MO hinh phin 16p Nạve Bayes dva tren djnh 19 ctia Bayes ve xac suit co dieu kien, veri gia thief cac thuOc tinh la dOc lip xac suit

b That tan phin lore Nạve Bayes

That town dva tren djnh ly Bayes duqc phat bieu nhu sau:

P(BIA)P(A) P(AIB) =

P(B)

- P(AIB): Xac suit xay ra A khi B di xay ra

- P(BIA): Xac suit xay ra B khi A xay ra

- P(A): Xac sat xay ra A,khong quan tam den B

- P(B): Xac suit xay ra B khong quan tam den A

Ap dung trong bai tan phin loci, cac dii kien gom co:

- X: tip der lieu huin luyen di ducat vector hoa dui% ding = (x 1 , x2 , , x„)

- Ci: phin lop i, veri i = {1, m}

- Cac thuOc tinh detc lip dieu kien doi meit veri nhau

Theo djnh ly Bayes:

CAC Kt THUAT ICHAI PHA Dir LItU

p pc co P ( c i) P(ci lx) = P (X)

Theo tinh chit dOc lap dieu kien:

P(XIC i ) = finxkico

k= 1

Trong de:

16p i

c Cac buerc thvc hien thuot town Nạve Bayes

Thuit town gem hai giai down huin luyen va phan 16p:

A11500 — Nguyen Dirc Hoang

Trang 27

CAC Kt THUAT ICHAI PHA DC)' LI$U

- Buck 1: HuAn luyen Naive Bayes (chra vio tap du lieu), tinh P(Ci) vi

P(xk ICO

- Buec 2: Phan hip = (x1, x2, ,xn), ta can tinh xic suit thuec timg phfin hip khi dA biet truck Xnew Xnew duqc gin vio lip co xic suit lern nhit theo cong thirc

max (P(Ci) fiP(xklCi)) C1EC

k=1

d Uu nhuqc diem cila Nạve Bayes

Yu diem:

Don gian, de cai dat do gia djnh cac thuelc tinh la doe lip

C6 the sir dung thong tin qua khti de du bao twang lai Khi met du bio xuAt hien trong thirc te, chung lai duct dung de tinh town lai mo hinh du bao cho cac phan tich tiep theo

Suy dien chinh xac dua tren tic tap d0 lieu Viec suy dien tren cac miu nho cling tuong to nhu tren cac mau len

Cung cap k& qua c6 the dien giii a ding bang nen VI to nhien

Co the chay duqc trong ca truing hqp met se mIu bi thieu dil lieu

de king ding 9 vii each chon tham s6 dau vio

Chi phi tinh town kha cao khi co nhieu tham s6 dau vio Cac kat qua me phong cho thy ket qua phan ph& xic suit hui khic nhau neu top huAn luyen la met top con ciia du lieu co sin va mOi lan huk IuYen ta lai chon mot top con khic nhau

2.2 Phin cym di/ lieu

a Giei thieu

A11500 — Nguyen Dirc Hoang

Trang 28

CAC Kt THUAT KHAI PHA Di)' LIEU

Gom cum dir lieu la hinh thirc hoc kheng giam sat trong do cac mau hoc chin duqc gan than Muc dich cua gom gun dir lieu la tim nhimg mau dai Bien hoac gom di:" lieu tuang qr nhau (theo mot chuir' danh gia nao d6) thinh nhfing cum Cac diem di: lieu nom trong cac cum khic nhau c6 dO twang to thip ban cac diem du lieu n&m trong cum

Phan tich cum co nhieu img dung !Ong rai, bao g6m nghien ciru thj Huang, nhan clang mau, phin tich du lieu va xir anh Trong kinh doanh, phin tich cum co th'E giup cac nha marketing kham pha str khic nhau gicra cac nhom khach hang dva tren th6ng tin khic hang va cac dac trung cua cac thorn khach hang dva trEn cac mau mua hang Trong sinh hoc, no co the duqc sir dung dE phan lo3i thvc vat vi dOng vat, cac mau gen veri cac chirc nang twang tv nhau Phan tich cum can co thO phin loci dot theo ding fling host thvc ti six dung dE co chinh sach qui hooch phu hqp, phan loci cac tai lieu ten Web

b Ck icieu phan gun dir lieu

Gia sir mOt tap di': lieu dung de phan tich cum china n dai tuqng (cac d6i tuqng co thE 11 con nguiri, nha, tai lieu ) Cac thuat wan gom gun thuang xir 15 , hen mot trong hai can true din lieu sau:

- Ma trot' der lieu: Bieu then n d6i tuqng, nhu con ngtrai, yeti p Bien (con duqc goi la cac phep do hay cac thuOc tinh), nhu tuoi, chiEu cao, can nang, gieti tinh

- Ma trap phin biet: De bitu than khoing cach giaa hai diEm (d6i tuqng) trong khong gian der lieu g6m n d6i ttrqng theo p thuOc tinh to dung ma tran phan biet

c Ck uu diem ciia phan cum

CO kha nang lam viec hieu qua veri luqng dir lieu Ian: Phan tich cum hen mot

man dii lieu lam co thE din den cac kat qua that lech Can phai co cac thuat toin phan

cum ten CSDL lam

CO kha nang /fir b, cac clang dft lieu khac nhau: NhiEu thuat town duqc thiet k le d'E xir IS/ der lieu bang sta Tuy nhien, cac (mg dung co the you cau phan tich cum cac clang

du lieu khk, nhu din lieu nhj phan, phin loci, vat tv hay su trOn lan coa cac kiOu der

lieu

CO kha nang kham phi ra cac cum veri cac clang bat kt: NhiEu thuat toan phan cum dva ten cac v.!, do khoing each Euclide hay Manhattan Cac thuat twin dva ten

A11500 — NguyIn Dire Hoing

Trang 29

CAC Kt THU4T ICHAI PHA Di) LI$U

cac so do khoang cach c6 xu huong tim cac gun hinh cau veri kich thu6c va mat de hong tv nhau Tuy nhien, met cum (cluster) c6 the co hinh clang bat kY Do do can phat thin cac thuat than a tim cac cluster birth ding bit kY

thuat town phan cam doi hoi nguvi dimg nhap cac tham so trong phan tich cum Cac ket qua phan ctun co the bj anh htremg vio cac tham sot dau vio Cac tham s6 thtnang kho xac djnh, dac Wet dai von cac tap de lieu chfra cac dal tucmg du lieu nhieu chieu

CO kha nang lam viec v6ri du lieu nhieu

Kheing bj anh hiking vio thin vr nhap cila der lieu

Lam viec bat tren CSDL co se) chieu cao

Chap nhan cac rang butjc do ngueri ding chi djnh

Co the hieu va sir dung duqc cac ket qua gom gun

2.3 Hai quy

a Gieri thieu

Trong khai phi der lieu, hOi quy la viec hoc met anh xa tir met mau adieu thinh met bien dv (loan co gia tri thvc Nhiem vu Cila hoi quy tuang tv nhu phan lap, diem Ichach nhau chinh o che thuec tinh di; doin la lien Vic chic khong red rac Viec cltr doin cac gia tri s6 thuting duqc lam beri cac phtrcmg phip thong ke c6 dien chin han hoi

quy tuyen tinh Tuy nhien phucmg phip m8 hinh haa cling co the duqc sir dung nhu cay quyet djnh

Hai quy la viec hoc met ham anh xa tir met mau de lieu thanh met bien dv doin cif) gia tri thvc CO rat nhieu ling dung khai phi de lieu voi nhiem vu hoi quy, vi dv nhu danh gia kha ning tir vong cilia benh nhan biet cac ket qua xet nghiem chuan doin,

dv doin nhu cau tieu thu met sin pham mai bang mot ham chi tieu quang cao, dv doin theo than gian voi cac bien &au vio la cac gia tri cila mau dv doin trong qua khir, v.v

b Cic clang bai quy

Met s6 dang hai quy thtrang duqc ap dung: hoi quy tuyin tinh, hai quy logic, hai quy Poisson va hoi quy hoc co giam sat

Phan tich hoi quy kh6ng chi la tang kW, diking cong (Iva chop met duang cong ma vira Ichop nhat yeti met tap diem de lieu), no con phai tang ;chap Arai mot mo hinh voi cac thinh phan sai se va thinh phin xic djnh

A11500 — Nguyen Dirc Hoing

Trang 30

CAC Kt THU4T KHAI PHA Hier LIU

Dang dun gian 'that cua mot mo hinh heti quy (Y = aX + b) china mot bien phi thuOc (can gel linbien dau rarbien not sinhrbien duqc thuyet minh", harbien-Y")

va mot hien dije lap don (can ggi sarbien ngoai sinh","bien thuyet minh", hay"bien-X")

Vi du thuang dung la sv pita thuOe elm huyet ap Y theo tudi tic X cita mot

hay sir phv thuOc cua tang luqng Y elm mot con thu nao d6 theo khan phan that an

hang ngay X Sr phi thuOc nay duqc goi la hoi quy cua Y len X

2.4 Lust ket hqp

a Geri thieu

Duqc gieri thieu tir nam 1993, bai toan khai thic 101 kat hqp nhan dirge rat nhieu sir quan tam ciia cac nha khoa hoe Ngay nay viec khai thic cac luit nhu v3y van 11 mot trong nhftng phuong phip khai thie matt ph6 hien nhat trong viec khai phi tri thiic

va khai pha Mt lieu

Trong host dOng san xuat kinh doanh, vi di kinh doanh cac mat hang t in sieu thi,

cac !MI quan ly rat thich c6 duqc cac thong tin mang tinh thong k'e nhu: 90% phi nu

co xe man d6 va deo ding h6 thy sk thi dimg nuec hoa Chanel hoc 70% khfich hang

la cong titian khi mua TV thuang mua loci 21 inches NM -mg th8ng tin nhu v#y rat him ich trong viec dinh hut:mg kinh doanh Van de dat ra la lieu c6 tim duqc cac lust nhu vay bang cong cv khai pha dO lieu Being? Cau tra leri la hoan town cc') the D6 chinh la nhiem vi cua khai pha lust ket hqp

b Ck khai niem ca ban trong Khai phi lust ket hop

Ludt Kat Hop (association rule): 11 dang !Etat bieu dien tri thirc a clang Prang dOi

don gian NO The hien m6i lien he (c6 dieu kien) gift cac tap phan M Cho A va B la cac tap phin tir, lust ket hqp gicra A va B la A 4 B B xuat hien trong dieu kien A xuat hien

DO hoz tro (supports): DO do do tin s6 xuat hien dm cac phan tir, tap phan tir

Trong supports co Minimum support (nguerng h6 trq t6i thieu) kw la gia tri h6 trq nhe nhat dirge chi dinh bed ngtkri sir Ming

Ging thirc tinh ENS h6 trq elm tap phan kr X, ky hi'eu Support (X).Dan vi tinh %:

cac giao dich hO trq X Support(X)

tong sd cac giao dich

A11500 — Nguyen Dile bang

Trang 31

Support(X =

Tong so cac giao dich

T6ng so' lung giao dich chin ca X, Y

CAC Kt THU4T KHAI PHA LICU

Cling thirc tinh dO ho trq cua luit ket hqp X -> Y, ky hieu Support(X->Y) Don vi tinh %:

kien xuat hien dm mOt tap phin to khk Trong Cofidence co Minimum confidence (ngutmg tin cay tOi thieu) tirc la gia tri confidence nho nhit duqc chi djnh beri ngueri dung

Cling thirc tinh dto tin cay cua luat ket hqp X->Y, ky hieu Confidence(X->Y), don vi tinh %:

Confidence(X Y) —

DO tin cay (Confidence) bieu dien mac dO dimg cua quy tic X-> Y

Phim tit (Item): Ck phin ter, tau, del ttrqng dang duqc quan tat' n

Tip phin to (Itemset): Tip hqp cac items

dich"khach hang mua hang")

support threshold

confidence thoa minimum support threshold va minimum confidence threshold

Vi du: phan tich CSDL ban hang nhin duqc thong tin ve tithing khach hang mua may tinh co khuynh throng mua phin mem quail ly tai chinh trong ding Ian mua duqc mieu to trong loaf ket hqp sau:"mdy tinh => phiin mem gam 15; tai chinh" [DO he trq: 2%, DO tin cay: 60%] May tinh, phin mem quim ly Si chinh la cai Itemset, do ho trq 2% nghia la 2% dm tat ca cac giao dich da phan tich chi ra ring may tinh va phin mem quan lY Si chinh duct mua cling nhau DO tin cay 60% nghia la 60% cac khach hang mua may tinh cling mua phin mem

c Ck buck antic hien khai pha luit ket hqp

Phfit bieu bii toin:

Diu vao:

Tong s6 Itrong giao dich chira ca X, Y

A11500 — Nguyen thic Hoang

Trang 32

CAC Kt THUAT KHAI PHA DC' LIt1.1

Cho mat tap mix I = {Ii, 12 Im }

Mat co so: dir lieu giao (Lich D (n giao dich)

Do he trq telt thieu minsup vi di) tin ch tOi thieu mincof

Diu ra:

Tap cic luat ket hqp R: X-> Y sao cho Support(X->Y) >= minsup vi confidence(X->Y)>= mincof

Giii quyet bii town:

BSc 1: Tim tat ca cic tap mix phi) Bien, mot tap mqc phi) bien duqc xk dinh qua Unit de; M trq vi them man di) hi) trq t6i thieu

BSc 2: Sinh ra cic luat ket hqp mph to tap mqc ph6 bien, cic luat phii them man da ho trq tei thieu, da tin cay eel thieu

d liu nhuqc diem cua khai phi luat ket hqp

Luat ket hqp c6 khi nang img citing trong nhieu filth vIrc kinh doanh, y hqc, tai chinh, thi truing chimg khoin, phan tich quyet dinh, Luat ket hqp la mat clang luat khi dam giin, de khai phi nhtmg thong tin ma clang luat nay dem lai rat c6 ich cho viec

he trq ra quyet Binh

e Mat se' thuat town khai phi luat ket hqp

Hien nay c6 mot s6 thu4t than hay duqc sir dqng de khai phi luat ket hqp:

Thu* town Apriori la thuat town khai phi luat ket hqp do Rakesh Agrawal, Tomasz Imielinski vi Anin Sawami dua ra nam 1993

Thuat town Apriori-TID la thuat town cii tien cita Apriori giop tang tic do xir bf

dir lieu

Thuat town Apriori-Hybrid la su ket hqp gitra Apriori vi Apriori-TID

Thuat town FP-Growth

Thuat town khai phi luat ket hqp song song Count Distribution, Data Distribution, Candidate Distribution

Day la mat tic At dang vai tra quan tong yeti khai phi du lieu Mqc dich cuoi ding ctia khai phi dit lieu glop nhi quin tri c6 the nim bit duqc xu huemg vi dua ra

quyet dinh trong tom lai viii khi fling thinh cong cao nhat Thus:mg dtra tren mat tap

s6 lieu len ve cic th8ng tin da xay ra vi Gong viec hien tai Ia phan tich de dua ra cac

A11500 — Nguyen 3ire Wring

Trang 33

— Gia — Khoi lugng

CAC Kt THU4T KHAI PHA Dir LI$U

ket luan c6 kha nang tin Gay cao Vi dp: met ngu&i chai chimg khoin mutan dau ttr vao met ma co phieu Truerc d6 hq se tang hqp cac thong tin ve Lich sir giao djch cita ma co phieu 86 veri cac tham so lien quan nhu: so ngtroi mua, so ngutti ban, kh6i luqng giao clich Tir do, co the khai phi duqc trong than diem ma thi trutmg di len hoac di xu6ng, gia tsi cita ma co phieu co bj anh huerng hoc kW:Si lucmg giao djch co tang hay khong Tirc 11 cac nha phin tich co the du bio dtrqc nhitng"mau hinh" cira thj trtrimg bang ckh"dqc" cac dot) thj ty gia, not cach khric hq tin tuang vao"viec lap 10 cita su vi'ec trong qua kh*" Phuong phap nay duo tren tinh thong k'e de duo ra ket qua du doin tin coy va de hieu, de sir dung Vi du: trong diu to co phieu, dei veri cac nha dau

tu, hq quyet dinh mua hay ban chirng khoin duo tren host deng cua thi tratmg vi str thay doi xu htremg thj truimg Dinh gia sty di len va xuOng ctia thj tnrerng tai timg thai diem nhat dinh Bieu dt, du doin str tang giam cti phieu DSC ngin han

2.6 Tang hop hea (Summarization)

La cong viec lien quan den cac phtrong phap tim kiem met me to tap con der lieu K9 thuat mo ta khai niem va tong hqp 116a thutmg ip dung trong viec phan tich dir lieu

co tinh tham de va bio cao to deng Nhiem vu chink la son sinh ra cac mo to dac trong cho met lop MO ta loaf nay la met kieu tong hqp, tom tit cac dk tinh chung ctia tat ca hay hau het cac muc ciia met lop Cac me ta dac thing the hien theo loot co clang sau:" Neu met muc thuec ve lap da chi trong lien de thi muc do co tat ca cac thuec tinh da neu trong ket luan" Cac luat clang nay co khic biet so viii cac luat clang phan lap Luat phat hien dac tnmg cho lop chi san sink !chi cac muc da thuec ve lop dO

2.7 Ma hinh hes sp phi? thuac (dependency modeling)

La viec tim kiem met mo hinh mo ta str phu thuec gift cac bien, thuec tinh theo hai muc Mirc cau &lc coa me hinh mo ta (thuimg dueri clang de th0, trong do cac hien

Al 1500 — Nguyen Dire Hoing

Trang 34

CAC Kt THUAT KHAI PHA DU LICU

phi thuoc hi) phan vao cac bien khk Va muc dinh luqng mo hinh mo to mire dO phu thuoc Nhfing phu thuOc nay thuerng duqc bieu 011 dueri clang luat"neu-thi" — neu fien

de dung thi ket luan dung VE nguyen tic, ca tier de va ket luan du co the la stir kEt hqp logic cita cac gia tri thuoc tinh Tren thuc te, tien de thuong la nh6m cac gia tri thuOc tinh va ket luan chi la mot thuijc tinh Hon ntia, hg thong co the phat hien cac luat phan 16p trong d6 tat ca cac luat can phai co cling mot thuOc tinh do ngtred dung chi ra trong ket luan Quan he phu thuOc cling co the bleu dien dueri ding ma ting tin cay Bayes D6 la dO thi co huerng khong chu trinh Cac nut bleu dien thuoc tinh va tong so elm lien kat phu thuoc gift the nut do

2.8 PhIt hifn std Min di vi dO lich (Change and deviation detection)

NhiOin Ai nay tap chung vao kham phi hau het stir thay d0i co nghia dueri clang

dO do di Nat trirerc hoc gia tri chuin, phat hien di) tech ding ke gift not dung cila tip con du lieu thuc va nOi dung mong dqi Hai me, hinh do Lech hay dung la loch theo th&i gian va l'ech theo nhom DO loch theo thin gian la su thay tfoi coy nghia cua der lieu thin gian DO loch theo nhom la stir khac nhau cua du lieu trong hai tap con du lieu, 6 day xet ca trtrOng hqp tap con du lieu nay thuoc tap con kia Nghia la xic dinh dit lieu trong mot nhOm con ciia dOi tuqng c6 khac ding kE so vOi toan b0 dt)i tirqng hay Ichong? Theo cach nay, sai sot du lieu hay sal Rich so veri gia tri thong thu6ng se duqc phat hien

A11500 — Nguyen Due Hoang

Trang 35

KHAI PHA DO' LIEU TRONG SQL SERVER 2012

3.1 Mil hinh OLE DB trong SQL Sever

3.1.1 Gliti thifu

Duqc giei thieu vio thing 7 Nam 2000 N6 co nguen geoc tir hai ding nghe ca se der lieu chinh: OLE DB vi SQL Tieu chu& nay thong qua cac khai niem co sa de lieu quan he va nhieu ap dung cita chting vac linh yip khai thac der lieu Phan cot lOi cea OLE DB la Data Mining eXtensions (DMX), mot neon ngir- truy yin SQL-style cho khai thac der lieu Dic to nay thingbao gOm mot danh sach cac chin nang du bao duqc xac djnh fru& va mot be schema rowsets Cac schema rowsets cho phep cac img dung cita ban kham phi cac me hinh khai thac vi cac (Lich vu khai thac to tong

Muc dich chinh ctla OLE DB la cung cip met cach thac chuin de truy cip vao bang dr( lieu Truck khi OLE DB ra deri, each IMO bien Mit de truy cip vac) met ca se

dO lieu quan he duqc thong qua Open Database Connectivity (ODBC), mot API Oa tren chuin SQL C Level Interface ODBC cung cap met cach de clang truy van cac loci co se lieu quan he Tuy hau bet cac dO lieu khong duqc Itru trong co se do lieu quan he DO lieu duqc tim they trong cac tip tin van ban, email, bang tinh Excel, tai

lieu Word, Bon muen truy cip vat) tit ca do lieu tren theo cach twang to nhu cach

ban truy cip dir lieu quan he, tea nhit la thong qua cling met API OLE DB duct gieri thieu cho now dich nay

Ifinh 5: Kiln Pic clic: Object Linking and Embedding Database (OLE DB)

A11278 — Doan Thanh Cong A11500 — Nguyen Dec Hoing Trang 28190

Trang 36

KHAI PRA D' LIEU TRONG SQL SERVER 2012

Cac chucmg trinh irng dung do the ket non tin cac nguan clit lieu khai pha khac nhau thOng qua cac ket non OLE DB hoic ADO Mai OLE DB cho met nguan dit lieu Data Mining, cung cap met tip cac giai thuit khai pha de lieu Cac thuit town nay co the truy xuAt bit 4 nguan de lieu dung bang nao th8ng qua OLE DB Du lieu nguan c6 the luu ter a trong nhieu clung nhtr CSDL quan he, OLAP cubes, file yin ban hay email

DE c6 kha ning trO thanh met chart chung cho khai pha de lieu, OLE DB dinh nghia met tip cac giao tiep Cie giao tiep nay duce cal dit ix% cac den tuqng Chimg bao gOm:

thong qua d6 cac chucmg trinh ang dung ket not ten nguan de lieu Mai met nguttin dit lieu, OLE DB cai dit met lap doi tucing rieng cho no De ket non ten met nguan de lieu OLE DB, cac chucmg trinh Ong dung can phai khai tao 16p nay truerc Data Source Object thuc thi giao tiep IDB Create Sesion la giao tiep h6 trq de mieu to cac thong tin sieu de lieu

tic NO sir dung giao tiep IDB Create Session, met Data Source Object c6 the tao ra met se luqng cac phien NO thuc thi giao tiep 1DB Create Command

tic NO sir dung giao tiep 1DB Create Session, met Data Source Object co the tao ra met so lucmg cac phien N6 thuc thi giao tiep IDB Create Command

tit ca cac nguan de lieu OLE DB truy xuat de boc tach dit lieu ra clued ding bang Met tip du lieu rowset c6 the hieu then khai niem la met tip cac dong

ma mai dang co cac cot dit lieu Chuang trinh se duyet cac rowset de lAy ra cac dit lieu khac nhau Ket qua truy yin tra ye la met tip cac rowset co dung bang (gam column ya row)

A11500 — Nguyen Dec Hoang

Trang 37

KHAI PHA DC! LIEU TRONG SQL SERVER 2012

Hinh 6: Ccic doi Won trong OLE DB 3.1.2 Clic khdi nifm co ban trong OLE DB cho Data Mining

Case: Data Mining 11 phan tich cac cases — moToi case II mot tap cac thut)c tinh

(attributes) MOi thuec tinh c6 the do met top cac gia tri goi la cac tang thai V1): thuec tinh giei tinh c6 2 tang thai la: nam vi ner

Case Key: la thuec tinh xac dinh duy nhAt cho m61 case N6 thuimg la kh6a chinh

dm mot bang quan he Thinh thoing, met case c6 the c6 khea tong hop (gem vai thuOc tinh) Vi du: First Name va Last Name c6 the ducrc ghop lai thinh khea do tuyen

Nested Key: mac de Case Key c6 the &roc quyet dinh lam kh6a chinh, nhung

kh6a long nhau tit khac biet vei kh6a ngoai Case Key chi de xk dinh tinh duy nhAt nhung 13i kheing chira cac niu (va thuerng bi be qua beri cac thuAt town khai phi der lieu), can khea king nhau lai la thuOc tinh quan tong nit Cac thu'Oc tinh khac a trong phAn long nhau dung de mieu to khea 16ng nhau

Case Tables viz Nested Tables: met bang case chira cac thong tin lien quan den

phAn nen dia case Mal bang Tong nhau la met bang chin cac thong tin lien quan den phAn king nhau cim case N6 thirimg IA bang giao tic (transaction table), VD: lich sir giao dich mua hang, logs truy cap Web Mt)t bang long nhau c6 the k'et n6i v6i bang case nha dimg Case Key De ket not bang case va bang Icing nhau theo mo hinh ke

thin, OLE DB dinh nghia phip toin Shape

Scalar Column va Table Column: met cOt trong mo hinh khai pha no giOng nhu

met cot trong mo hinh quan he, no cling dirqc goi la bien hay thuoc tinh trong thwAt ngil thong ke

A11500 — NguyIn Dirc Hoing

Trang 38

KRAI PHA LIEU TRONG SQL SERVER 2012

Thy theo mvc Bich sir dung, me hinh khai phi de lieu co the do 4 kieu cot la: khem, dau vao, dv doan va met cot chira ca dau vau va dv doan Met vai thuat toan nhu

la phan cum, kheng you cau cac cot dv doan Trong truerng hqp nay, me hinh khai pha c6 the chi bao gam cac cot d aau vao

Co 2 loai au trite cot la: vo Wong (scalar) va bang (table) Phan len cac cot la cot vo htremg Mtn cot ve hiving cira mot tap cac ban ghi rieng bier co gia tri dun Vi dv: Tit& va Geri tinh la cac cot vo hut:mg Met cOt bang la mot cot dic bier NO chira met bang ben trong Vi du: ThuOc tinh Purchases chinh la mot cot bang (chira thong tin ve san pham va se Itrqng hang khach hang da mua) OLE DB co khai niem ve tap der lieu ke this: phan nen dinh cho ck cot vo htretng va phan phan cap la cac cot bang

bang quan he N6 bao gem cac cOt khoa, cOt dau van va cac cot dv doan Moi mo hinh duqc gin veri met thuat toan khai pha de lieu ma tai d6 mai me hinh duqc huan luyen Vie huan luyen met me hinh khai pha tirc la tun ra cac matt 4p hqp de lieu bang cach

dac to cac thuat loan khai pha de lieu veri cac thong se phh hqp Sau qua trinh huk

duqc Trong khi met bang quan he la tip cac bin ghi thi me hinh khai pha du lieu la tap cac matt

pha de lieu trong, gin giong nhu cach ma tao ra met bang meri

thuat town khai pha de lieu de kham pha tri thee nher cac 4'p de lieu huan luyen Sau qua thrill hair luyen, cac matt duqc luu tre trong cac me hinh khai pha

khai pha di duqc huan luyen, de dv dok cac tap de lieu men img veri mai twang hqp meri

3.1.3 Data Mining Extensions to SQL (DMX)

a Dinh nghia:

DMX - Data Mining Extensions la met ngen nger truy van khai pha (Wien duct dinh nghia trong OLE DB climh cho khai pha de lieu DMX duqc thiet ke hau het cac

A11500 — Nguyen Dirc Hoang

Trang 39

ICHAI PHA Dg LIEU TRONG SQL SERVER 2012

Tren SQL Server 2012, ngoii viec sir dung cling cm SQL server data tool de khai phi du lieu mat cich tnic quan bang giao dien, to con co the sir dung DMX truy van tai he quin trj CSDL nay de lim to clang boa qui trinh xay dung mo hinh, huan luyen der lieu, du doin, truy van ra caythong tin tri thirc, hien thi kat qui tren giao dien ngtrai &mg

b Cic bulk khai phi du lieu sir dung neon ngit DMX:

Xay dung m8 hinh khai thic: tuang to nhu tao mat bang trong ca se di/ lieu quan Mat mo hinh khai thic gem:

- Cot dit lieu diu vao

- Cat dtr doin dugc

- Thuat town lien quan

the thinh vien cua mat Ichich hang sir dung that town cay quyet dinh:

Create mining model MemberCard_prediction

CustumerlD long key,

Gender text discrete,

Income long continous,

MemberCard text discrete predict,

Purchase table(

ProductName text key,

Quantity long continous

Using Microsoft_Decision_Trees

Huan luyen mo hinh khai phi: trong buerc nay cic thuat town khai phi du lieu bit d'au phan tich cic der lieu diu vio Tity vio hieu qui cita tirng thuat town se cho thiy mei ttrcmg quan gift cic gii trt thuac firth

Doan ma l'enh DMX de luyen ma hinh:

Insert into MemberCard_prediction

(CustomerID,Gender,Age,Profession,Income,HouseOwner,MemberCard)

A11500 — Nguyen Dire Hoang

Trang 40

KHAI PHA Dv LIEU TRONG SQL SERVER 2012

OpenRowset(` sqloledb' :myserver': mylogin mypass ' ,` select

CustomerID,Gender,Age,Profession,Income,HouseOwner,MemberCard

From customers')

Du doan: De du doom chimg to can mot m6 hinh da duqc huan luyen va new

dataset.Sir dung cac hang du doin duqc djnh nghia trong DMX de dua ra du doin

Vi du down mA lent' DMX du doin:

c M6t se ham du bao dtrqc dish nghia:

A11500 — Nguyen Dirc Hoing

Ngày đăng: 03/07/2016, 22:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w