1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu trong SQL server 2012.PDF

83 1K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 83
Dung lượng 1,15 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Con cac nha thong ke thi xem" khai phi da lieu nhu la min qua trinh phan tich dugc thiet ke tham do mitt luong coc len cac der lieu nhim phat hien ra cac miu thich hqp vil hok cac mOi qu

Trang 1

TONG QUAN YE KHAI PHA DIY LIEU

CHUCFNG 1 TONG QUAN VE KHAI PHA Dir LIEU

1.1 Khii niem va khai phi d* lieu

1.1.1 GM thifu vi Mai plui chi Wu

Trong nhcmg am gin day, su phat then mph me ciut CNT'T va nganh ding nghiep phis cimg da lam cho kha ning thu nhap va Itru fru thong tin ciia cac thimg thong tin tang nhanh met cach cheng mat Ben conh do viec tin hoc hea met each 6 at

va nhanh chiong cac hoot dOng san xuat, kinh doanh cling nhu nhieu lInh Arc hog dOng khk di tio ra cho chimg to met lucmg de lieu luu tray Ichting 16 Hang trieu CSDL da dugc sir dung trong cac host dong san xuat, kinh doanh, wan trong do co nhieu CSDL cac len cot Gigabyte, thorn chi la Terabye So bang nay din tin ye'u cau cap thiet la can co nhung k9 thuit va ding cu mei de to Ong chuyen doi Wong de lieu khang to Ida thanh the tri thirc co ich Tir do, cac Id thuili khai pha de lieu di fro thanh met linh we then so dm nen cting nghe thong tin the giei hien nay

1.1.2 Dinh nghia vi khai pith dfr lifu

Phat hien tri thirc (Knowledge Discovery) trong cac co se du lieu la met qui trinh nhan biet the miu ho4c the mo Mob trong de lieu voi cac tinh fling: hqp thee mei, kha ich, va c6 the hiau duqc

Con khai thic de lieu (data mining) la men nge tuong del mei, no ra din vao khoang nhfrng nam cu & cua dun thap 4 1980 C6 nit nhieu djnh nghia khac nhau ve

khai phi de lieu Giao su Tom Mitchell da dua ra djnh nghia cita khai pha de lieu nhu sau:" Khai phi de lieu la viec sir dung da lieu lich sir de kham phi nheng qui tic va cai thien nhcmg quyet djnh tong tuong lai" Veri met each ti6'p c4r1 ling dung han, tien

si Fayyad da phat bleu:" Khai phi da lieu durang duqc xem la viec kham phi tri thirc trong cac co se de lieu, la meat qua trinh trich xuat nheng thong tin in, trues day chua hi& va co kha fling heu ich, duel ding cac quy luat, rang bu0c, qui tic trong co se du lieu" Con cac nha thong ke thi xem" khai phi da lieu nhu la min qua trinh phan tich dugc thiet ke tham do mitt luong coc len cac der lieu nhim phat hien ra cac miu thich hqp vil hok cac mOi quan he mang tinh he thing gifts cac hien va sau de se hqp thirc hoi cac ket qua rim duqc bing each ap dung the miu da phat hien duqc cho tip con mei cita de lieu"

A11500 — Nguyin Dec Hoing

Trang 2

TONG QUAN VE KHAI PHA DIY LI$U

N6i tom lai: khai pha 80 lieu la met buoy trong quy trinh phat hien tri thirc gom

co cac that town khai thic du lieu chuyen dimg dtrOi met se quy djnh ve hieu qua tinh town chap nhan duqc di tim ra cac mitt hoac cac me hinh trong dO lieu

1.2 Cic bulk trong khai phi do Ilea

1.2.1 Clic ki thuOt khan ph6 drr lifu

M3c du khai thic dfr lieu nhu lit met thuat nge tuong del mai, nhung hau bet cac

ky thuat khai thic du lieu da ten tai tong nhieu nim Ma tier than cita khai thic dur lieu deu xuat phat tir: thong ke, hoc may ya co so a lieu Mot so thOt town khai thic d0 lieu, bao gOm ca hOi quy, chugi that wan, va cay quyet djnh deu duqc phat minh boi cac nhi thOng ke hqc Ky thuorhei quy" CIA ton tai trong nhieu the kY Cac thuat toan"chuOi than gian" di duqc nghien ciru trong nhieu thap ky Thuat town thy quyet djnh la met trong nhieu k9 thuat gin day, co nien dai tir gifta nhUng nam 1980

Khan thic d0 lieu tap trong yao phat hien to (king ho#c ban qr ()Ong matt Met di thuat town hoc may(machine learning) duqc lip dtmg cho khai thic dti lieu:

a Mang noron (Neural networks)

Day la mot trong nhftng icy thuat khai pha du lieu dirge ling dung ph6 bien Men nay K9 thuat nay phat trien dva ten ' met nen tang town hqc vtIng yang, kha nang h ' tan ' luyen trong ky thuat nay (lira tren mil hinh than kinh trong trong cita con ngu&i

Kat qua ma mpg naron hqc duqc c6 kha nang tao ra cac mo hinh dv bio, dv doin yeti de chinh xitc yi dO tin cay cao NO co kha nang phat hien ra duqc cac xu bluing phirc tap ma k9 thuat thong thubng Ichic kh6 c6 the phat hien ra duqc Tuy nhien phuong phip tnang no ron rat phirc tap yi qua trinh tien Minh no g#p rat nhieu kh6 khan: doi hoi mat nhieu thai gian, nhieu 80 lieu, nhieu Ian lciem tra thir nghiem

b Giii thuat di truyen

Li qui trinh m8 phong theo tier hoi cua tSr nhien Y Wang chinh cua giai thuat 11 dva vim quy luat di truyen trong bien dOi, chip Ice tv nhien yi tiers boa trong sinh hoc Viec xay dvng cac thuat town di truyen me phong sinh hoc nhim tim ra cac giii phip tot What bao gem cac btreic sau:

- Tao ra ca the ma di truyen dual long cac xau cita met bang ma lct tv han che

- Thiet lap mei tnrang nhan tao trorTh may tinh co cac giii phip co the tham gia"dau tranh sinh tO'n"veri nhau de zit djnh dO do thanh cong hay that

A11278 — Doan Thanh Gong A11500 — Nguygn Thic Holing Trang 2190

Trang 3

TONG QUAN VE KHAI PHA DIY LISU

- Phat trien cac"phep lai ghep" de the gild phip ket hqp vei nhau Khi do cac

rcau mi di truyen cua giii phip cha va mg bi cat di vi xep lai, trong qua trinh

sinh sin nhu vay cac kieu dOt bien co the duqc ap dung

- Cung cap mot (lull the cac giii phip ban diu tucmg d6i da long vi a may

tinh thqc hien"cu(ic chai tien hem" bing each loci be cac gal phip tir min ca

the va thay the chung bing cac con chin hoac cac dOt hien cua cac giai phip

bk Thu* wan se ket thitc khi mot h9 cac giiti phip thinh citing duqc sinh ra

Khai phi de lieu (KPDL) la viec frith chcm d.3c trtmg MI lieu mot each ty doting

tir mot Si dii lieu 16n Tri thin do thtrimg o cac ding maw c6 tinh chat khong tam

thuong, An (khong twang minh) nhung 13i co the mang 13i ich lqi lam neu no duce sir

clung dung chi) Co the coi KPDL 11 cot lai cfut qua trinh phat hien tri thac trong co so

dii lieu (Knowledge Discovery in Databases — KDD)

1.2.2 Luling di lifu

Khai thic der lieu la mot trong nhUng thanh vien quan trong trong data warehouse

family Trutmg hqp khai thic dft lieu nio la phu hqp veri dien kien ctla cac luOng der

lieu trong mot kith bin kinh doanh dien hinh?

Hinh sau minh h9a mot luting dir lieu doanh nghiep dien hinh ma khai that der

lieu co the duqc ap dung trong cac giai down Ichic nhau

-4 ill P-

O ♦ 4

Online transaction Processing (OLTP)

Onlbe

••■ Analytical Processing

Hinh 1: M6 hinh khai phti du lieu doanh nghiep

A11500 — Nguyln Dire Hoing

Trang 4

TONG QUAN VE KHAI PHA Dir

Met ung dung kinh doanh luu till the dt1 lieu giao Bich trong met ca so &I lieu

bb 15, giao djch true tuyan (online transaction processing- OLTP) Cie clit lieu OLTP duqc chiet xuat, chuyin doi va nap vio data warehouse met each thuong xuyen Luqc itO Gila data warehouse thuimg khic nhau tir met luqc 46 OLTP Met lucre d6 data warehouse dk tnrng cob hinh ding du met ngoi sao hay met bong tuyet.V6i bang giao djch o chinh gifta luqc 46 va dtrqc bao quash bei met be dimension tables(cic bang kich thubc)

Tnnk lien, vi ph6 hien nhit, khai that dO lieu co the duqc by dung cho cac kho

dO lieu nth ma dft lieu di duct lim mtch Cac miu duqc phat hien bed cic mo hinh khai thic c6 the duqc trinh bay cho cite nhit quan lt tiep chi thong qua the bio cao

Khai thic dft lieu co the c6 met lien ket true tiep den cic ling dung kinh doanh, ph6 bien nhit la thong qua cac du doin Nh(mg khai thic dft lieu vio ling dung kinh doanh dang ngay met phO bien han

Vi du: Trong met kich bin bin hang qua Web, met khi met khach hang dit met sin vio trong gio hang, met du bao troy van khai thic der lieu duqc thuc hien de c6 duqc mot danh sich cic sin phAm duqc de nghj dua tren phin tich

Khai thic du lieu cling co the duqc cip dung de pit tich kh6i OLAP, la met cc

so du lieu da chieu ved nhieu kich thubc vi don vi do Kich thy& c6 the len den hang trieu bin ghi do d6 se kho khAn cho vier tim ra mo hinh quan tan Ky thubt khai thic

dO lieu c6 the duqc ap dung de kham phi ra cac mo hinh an trong met khoi OLAP

Vi du: Met thulit than lien ket co the duqc bp dung cho mot Ich6i ban hang, phin tich mau mua ctia khich hing cho met vimg cµ the va then gian Chling to c6 the ip dung ky thubtIchai thic dO lieu de du bao cac bien phip nhu ban hing vi lqi nhubn

A11500 — Nguyin Due Hoing

Trang 5

Gathering

TONG QUAN VE KHAI PHA D() LISU

1.2.3 Yong did min m#t dv tin Heal phd dit

Selection Preto-ton I — Dot i' rin,

Alli I erarafra" Dlia

qp- Cleansed

Preprocessed 4r Target 14 Warted

Data

Data

Hinh 2: Yong doff aia men dv an khai phti du lieu

a Gom du lieu (gathering) va Trich lqc du lieu (selection)

Gom du lieu: Tap hqp du lieu la boat dau tien trong khai phi du lieu Busk nay lay du lieu tir trong mOt co so de lieu, mOt kho dft lieu, them chi di' lieu tir nhimg nguon cung Ong web

Trich lqc du lieu: O giai down nay du lieu duqc lira chon va phfin chic theo mOt

se lieu chuan nao d6

c Lam sach va tiers xir 15r der lieu (cleansing prepocessing)

Lam sach de' lieu: Day la qua trinh xir ly a ga be hoac lam giam nhieu vi each xir 15, cac gia tri khuyet Burk lam giarn su mop mer khi hqc

Phan tich stir thich hqp: Nhieu thuOc tinh trong du lieu co the khOng thich hqp hay khong can thiet de phan loai Vi vay phop phan tich sar thich hqp duqc the hien teen der lieu veri muc dich ger be bat lck nhung thuOc tinh khong thich hqp hay khong

can thiet Trong hqc may bait nay duqc gqi la trich hoc dac tnrng Phip phan tich nay giup phan loci hieu qua va nfing cao kha rang ma rung

A11500 — Nguyen Dirc Hoang

Trang 6

TONG QUAN VE KHAI PHA Dti

Giai doan nay la giai don hay bj sao ling, nhtmg thuc 4 no la med buck rat quan trqng trong qua trinh khai phi de lieu M6t s6 16i thubng mac phai trong khi gom de lieu la de lieu khong day du hok khong thong nhat, thieu chit chi Vi 4y du lieu thubng chfra cic gia trj vo nghia va kh8ng co kha ning kit not du lieu, vi di; Sinh vien

co tuai=200 Giai doan nay nh&m xir ly cac de lieu nhu tren (de lieu vo nghia, de lieu

khong co kha fling kit nai) Nheng de lieu ding nay thubng duce xem la thOng tin du thin, khong c6 gia tq Bed viy day li mOt qua trinh rat quan tong Neu de lieu khong duqc lam such - tiers xi: ly - chuan bj threw thi se gay nen nheng kit qui sai tech nghiem tang ve sau

d Chuyen d6i de lieu (tranformation)

Trong giai doan nay, de lieu co the duqc to chile va sir dung lai Muc dich ctia viec chuy'en dal de lieu li lam cho de lieu phit hqp han veri muc dich khai phi de lieu

De lieu co the duqc tong quit him teri cac mirc khai niem cao han Dieu nay rat him ich cho cac thuk tinh co gia tr1 lien tuc Vi du, cac gia trj so cua thuk tinh thu nhip duce tang quit hoa sang cac pham vi rai rac nhu thap, twig binh va cao Tuang

Ur, cac thutjc tinh gii trj nhu dtrimg ph6 dirge tong quit hoa ten khai niem cao han nhu thinh ph6 Nher do cac thao tic vio/ra trong qtth tint' xir li se it di

De lieu co the duqc tieu chuan h6a, &lc biet khi the mpg na-ron hay cac phuong phap dung phep do khoing each trong cac buck xir H Tieu chuan hoa bien dot

theo ty le tat ca cac gia trj cita mOt thuk tinh cho truck de chfmg rai vao pham vi chi djnh nhu [-1,0;1,0] hay [0;1,0] Tuy nhien dieu nay can cher cac thutjc tinh co pham vi ban &anion (nhu thu nhip) co nhieu inh huerng dal veri cac thuk tinh c6 pham vi the) han ban dau (nhu cac thuk tinh nhj phin)

e Phut hien va trich mau de lieu (pattern extraction and discovery)

Day la butc to duy trong khai phi de trong giai doan nay nhieu thuit toan khac nhau di duqc sir dung de trich ra cac man tir dft lieu Thuit town thubng dimg de trich man de lieu li thuit town phan loci dir lieu, kit hqp MI lieu, thuit town ma hinh hoa de lieu min ur

Li mOt trong cac buerc quan IA:mg nhat vi tan thin gian What cita qua trinh KDD, trong d6 sir dung nheng phuang phip thong minh de chat Ice ra nhimg nth dt1 lieu Chu yeu la cac k9 thujt ciut machine learning (hoc may) de khai phi, trich chon nheng

A11278 — Doan Thanh Cong A11500 — NguyIn Dim Hoing Trang 6190

Trang 7

TONG QUAN VE KIIAI PHA Din Lieu

C6 the cac mo hinh khong china cac mau c6 the sir dung Co the la dft lieu hoin than ngiu nhien hoc dft lieu c6 qua nhieu thong tin gay nhieu Dieu nay you cau can phai lap lai cac buoy lim sach vi chuyin doi dft lieu de chit lqc ra cac dft lieu c6 nghia ham Day la met qua trinh lap lai vi tot dill len de dtra ra cac th6ng tin phi' hqp, coy nghia yeti ngtrai quan trf

f Dinh gia ket qua ink vi bleu dien tri thirc (evaluation of result and Knowledge presentation)

Day la giai doan curfoi sung trong qui trinh khai pha &I lieu, a giai doan nay cac matt dft lieu duqc chiet xuat ra bai phan mem khai phi du lieu KhOng phai man der lieu nao cling hftu ich, d8i khi no can bi sai tech Vi vay can phai dua ra nhiing lieu chuir' danh gia do uu tien cho cac mttu der lieu de rut ra duqc nhemg tri link can thiet Bieu dien tri thfrc: sir dung cac kgr thuit de bien dien vi the hien tivc quan cho nguiri dung Cac citch bieu dien nen a clang gait gui vi de hieu vai ngtriri dung nhtr clang dri thj, cay, de dua ra cac bio cao gulp ngtreri quan tri co the dua ra cac quyet djnh mang tinh chat quan tong

1.2.4 Chain khai phsi din life

SAS: la nhit cling cap san pham khai phi de lieu tau uhit 4 mat thi phan Dung

dau trong linh vuc thOng ke trong nhieu thop kY Co sa SAS chira met be rat phong pith cac chile ning thOng ke c6 the duqc sir dung cho tit ca cac loai phan tich din

Ho trq khai thic van ban, moi tnrimg di) hqa di xay dung cac mg hinh, co cac thuat toan khai thic dit lieu phi') bier nhu: cay quyit djnh, mang naron, hOi quy

SPSS: gOm cac san pham khai thic &I lieu nhu"SPSS base"vrAnswer Tree

Ke thira gOi khai thic dft lieu Clementine — mot trong nhiing cong ty Mu lien gith thieu cac khii them luOng khai thic dft lieu, cho phip ngtrai ding lam sach dft

chuy'en dOi der lieu vi thvc hien cac mo hinh thin nghiem

IBM: sin pham khai thic dft lieu la Intelligent Miner a Disc N6 chira mitt tap hop cac thuat than va cac cling cu tnrc quan Dun ra nhiing me hinh khai thic du lieu trong Predictive Modeling Markup Language (PMML) PMML la cac file XML chira

me to cim cac matt me hinh vi so lieu thong ke cua cac dirt lieu mau vai !nue Bich du bao

Microsoft la nha cung cap dft lieu chuyen nghiep dau lien bao gilm cac tinh ring khai thic trong met ca se der lieu quan he SQL Server 2000 c6 hai thuat toan khai thic dft lieu la: Microsoft Decision Tree vi Microsoft Clustering Vai cac phien bin

A11500 — Nguyen Dim Hoang

Trang 8

TONG QUAN VE KHAI PHA DIT LI$U

tiep theo cua SQL Server la 2005, 2008, 2012 cic tinh rang khai phi co kr chi lieu ngly cang duqc rang cep va sin phew ctia Microsoft ngly cang chiem linh thj truang Oracle: Oracle 9i twit xtremg vao nim 2000, oft met cap thu#t town khai thic du lieu dtra tren association (141 kit hqp) va Naive Hayes Oracle lOg bao gam nhieu cong cv va thu#t toin khai thic de lieu hon Oracle cling kit hqp veri Java Data Mining API la gai phin mem cho khai phi der lieu

Angoss: chit yeu xay (tong ck th41 toin decision trees, cluster analysis vi cic

me hinh du doin cho phep nguiri dung hieu de lieu ctia ho tir nhieu quan diem khic nhau Cic th4t win duqc ha trq ben cong co troc quan manh me et4 giii thich flitting tri thirc khai phi duqc, n6 ding liun viec tot vai cic lien ich cita he quan trt Microsoft SQL Server

KXEN: cung cep mot s6 thuol town khai phi de lieu nhtr: SVM, regression, time series, segmentation Va cic giai phip khai phi de lieu cho khei OLAP Ngoai ra, cung cep tien ich Excel add — in de khai phi di lieu trong moi truerng Excel

1.3.1 Kiln Ink Su min he thing khai phd Aar Mist

Co se du lieu: gam kho de lieu hoc ck cich luu tra thong tin khic (Database, data warehouse, worldwideweb, information repositories) Day la mot hay mot tip cic CSDL, cic kho der lieu, cic trang tinh hay ck dung luu tre thong tin khic.Trong nheng tinh hung co the, thanh phan nay la nguan nh#p (input) dm ck kt thuftt tich hqp va lam such de

May chit CSDL hay may chti kho dit lieu (Database or Data warehouse server):

may chit nay c6 trich nhiem ley nhemg de lieu thich hqp dtra tren cic you aulchai phi cua ngtroi dung

A11500 — Nguyen Dire Hoang

Trang 9

TONG QUAN VE KHAI PHA DIY LltU

Giao difm ad hos wen Wog

Ulm !nog miu

May khai phi da , liiu

May chi' CSOL hay kho dat lido

Lim each yi doh hqp SY lido

Co so de , lido Kho canidu

Co so tri thtk (Knowledge base): duqc dung de lureng dan qui trinh tim kiem, danh gia the mau ket qui duqc tim they Ca sa tri thirc c6 the 11 the phan cap khai niem, niem tin ciia ngutri sir dung, cac ring but* hay the ngtrecng gii tri, sieu &I lieu

May khai pith du lieu (Data mining engine): Thinh phan nay chira cic khai chirc ming thuc hien tac vu khai phi da lieu nhu: die trung h6a, ket hqp, phan lop, phfin cum, phan tich su tien

Module danh gib malt (Pattern evaluation): Thinh phin nay c6 the duqc tich hqp vio thinh phan Data mining engine NO co the dung cac nguOng ve do quan tam de 19c mau da kham phi duqc Cling co the module danh gia mau duqc tich hqp vio module khai phi, toy theo su cii dit ctia phucmg phip khai phi duqc dung

Giao di en do hpa nguai dung (Graphical user interface): Thinh phin ha trq su Wang tic gift nguai sir dung vi he thing khai phi du lieu

- Nguiti sir dung co the chi djnh cau troy vin hay tic vu khai phi du lieu

- Ngubi sir dung co the duqc cung cap thong tin ha my vies tim kiem, thuc hien khai phi du lieu saw hcm thong qua cic ket qui khai phi trung gian

- Ngtroi sir dung sung co the xem cic Itrqc dO co s6 dit lieu/kho der lieu, cac eau

trite chl lieu; dinh gia cic mau khai phi duqc; true quan hea cac mau nay a

cic clang khic nhau

A11500 — Nguyen Disc Hoing

Trang 10

TONG QUAN VE KHAI PHA Dir tau

1.3.2 Clic chic sang chills ciao Mai pho dile lieu

Cac chfrc nang nay duqc the hien qua

a Dac trtmg hem va phan biet:

Dac flung h6a 11 viec tong ket town b0 the dk diem hay cac tinh chat chung cua mot lop du lieu dich DO lieu d6 twang Ung veri mot kip do ngtthi dung dac ta bang mot cdu truy van CSDL DO lieu tra ve ctia qua trinh ddc hung hem co the &the bieu dien bang nhOng khuon ding khic nhau

b Phan tich sv ket hqp:

La kham pha ra cac luat ket hqp trong mot tap lern dO lieu Cac IWO ket hqp the hien m6i quan he glad cac gia tri thuOc fink ma ta nhan thdy duqc to tan suat xuat hien ding veri nhau

Cac ludt ket hqp duqt kham phi to mot tap lern cac ban ghi giao dich trong kinh doanh vi nhOng luat coy nghia co the gitip cho cac nha doanh nghiep ra quyet dinh

c Phan lop va dtr down:

Phan lop la qua trinh tim mot tap cac m8 hinh (hoac cac clue= nang) m8 ta va phan biet cac lop du lieu Ck mo hinh nay se duck sir diving cho ink dich dv doin ve lop cua mot s6 d6i twang

Vi'ec xay dvng m8 hinh dva tren sv phan tich cita mitt tap cac dir lieu huan luyen,

mitt m8 hinh nhu vay co the duck bleu dien trong nhieu Bang: ludt phan 16p, cay quyet dinh hay mpg naron

De phan lop vi dv doin co the thvc hien tunic mot sv phan tich thich hqp Sr phan tich d6 nhitm xac dinh nhOng thutjc firth kheng tham gia vi qua trinh phan lop vi

dv down, cluing se bi loai tth sau buerc nay

d Phan cvni:

!Chong gating nhu phan lop vi dv down, phan cvm se phan tich cac dai twang clit

lieu khi chua biet nhan cfia lop

Sr phan cvm co attic dich nh6m cac dEti tuqng lai then nguyen Cac d6i twang trong ding mot nhom giot ng nhau a mt.= cao nhit vi cac d6i thong khac nhom giting nhau it nhat

e Phan tich phan ter ngoai cuOc:

A11500 — Nguyen Mc Hoang

Trang 11

TONG QUAN VE ICHAI PHA Dli LL$U

lieu, nhiing del tuqng nhu viy gel la phin tin ngoai cuOc

Hiu het cac phuong phap khai pha der lieu deu coi phin tin ngoai cuec la nhieu va loii be chung.Tuy nhien trong met se ling dung nao d6 nhu phat hien nhieu ching han, cac str viec hiem khi xay ra lai duqc quan tam hon nhting gi thuirng xuyen phai

Sr phan tich du lieu ngoai cuOc xem nhu la sr khai pha cac phin tin ngoai cuoc C6 met so phucrng phap de phat hien phAn tir ngoai cuOc: dung cac test mang tinh thong k8 tren co so met gia thiet ve phan phoi du lieu hay met me hinh xac suit cho dit lieu, dung cac phucmg phap dva ten dt) tech di kitm tra sv klik nhau tong nhcmg

di c trung chinh cita cac del tuqng tong met nh6m

1.3.3 Cdc dong dfr lit'u cti thi khai plod

Nhu chimg ta di biet, tri thirc cua nhan loci la tong hoa cua cac mot quan he, lien quan met thiet, logic yeti nhau va duqc hat tnlr duoi clang du lieu thy du lieu kia.Trong thvc to c6 rat nhieu me hinh co so de lieu, my nhien trong cac linh vvc Ung dung cy the khac nhau, chung ta c6 the dinh nghia va phan biet ra rat nhieu ding du lieu sao cho thuin lqi nhAt tong qui trinh sir dung Khai pha du lieu c6 kha ning chip nhin met se kik' du lieu sau:

Ca so du lieu quan he (relationnal databases): la cac dit lieu duqc to chat theo

mo hinh clft lieu quan he fit phe hien trong nhieu nginh Do d6 hiu het cac he quan tri

cc se dir lieu dEu he trq dung co sa du lieu quan he nhu Oracle, MS SQL Server, IBM DB2, MS Access

Ca see da lieu da chieu (multidimensional structures, data warehouses): day cling

la clang dft lieu tac nghiep c6 cac ban ghi that:mg la cac giao tic Dang du lieu nay cling phe hien hi'c1/41 nay

Ca set dit lieu quan he - Wong dei tuqng (object relational databases): la clang du

lieu lai giera hai me hinh quan he va hut:mg del tuqng

Du lieu khong gian, thoi gian va chuti thoi gian (spatial, temporal and time series data): la clang de lieu ca tich hop thuoc tinh ve khong gian dit lieu nhu dit lieu

ban at mang cap dien thoai hoic thiri gian nhu dft lieu ark dien thoai, phat hanh bao chi, chi se chimg khoan

A11500 — Nguyen Dirc Holing

Trang 12

TONG QUAN VE KHAI PHA Dir tau

Ca so' du lieu da phieang tien (Multimedia databases): la dang de lieu am thanh,

hinh inh, text & WWW Dang de lieu nay nit phong phit, da dang va duqc phi') bien rOng rdi, nhAt la tr'en intemet

1.3.4 Nhung vin di kho khan trong khai phi dir Iteu

a VAn de ve Ca SO De Lieu

DAu vao dm met he thong khai phi de lieu thuang la tap cac de lieu the, so nhieu Inc kh6ng dAy dit va 131 nhieu Ngoai ra trong thvc to de lieu lai luon bien dong khong ngUng va duqc b6 xung lien fix tao thanh mot Itnyng de lieu Ichiing to chira ding ca nheng th8ng tin c6 ich va khong c6 ich Chinh vi voy trong bAt kY met he thong khai pha da lieu nio viec dAu fien can lim la phin tich va xem xet co se de lieu ma he

thong khai phi

b Co sa de lieu lot

Viec sir dung cong cu phan tich true tuyen khong khai thic het duqc nhemg thong tin dm CSDL hien the& chinh vi v'ay nheng floral xir ly de lieu khong con each nao khk la Itm de lieu lai de phuc vu cho muc dich sir dung sau nay Der lieu dtrqc hru chira dung ca thong tin co ich va vo ich Viec tich ley nay ngay tang len va cho den nay cac CSDL tai hang trieu ban ghi c6 kith think len den Tetabytes Tity timg img dung cu the, viec lam nhu nio de loai 136 de lieu china, nheng thong tin ve nghia lai c6 nheng each khic nhau Vi vOy phucmg phip xir lY de lieu het sire da clang va phirc tap, khong co met quy tic chung cho moi irng dung

c SO chieu dit lieu Ian

Tip de lieu thvc chat la mot tap cac so do tar mei tnrang hok qua trinh Twang hqp don gian that, chimg to co tap hqp cac dOi ttnyng, moi del tucmg co mot tap p se

do SO do chinh la thuec firth dm dive the (dti tam, ban ghi ) Cimg vet you au cim thOng tin la da clang va dAy do ma de, lieu can luu duqc thi se Itrottg thuOc tinh cfmg can phai nhieu len MOi thuOc tinh co the &Km cm la mot chieu trong khong gian CSDL Chinh vi the se chieu cita bai town trong he khai phi de lieu ming rat len MOi tap du lieu c6 so chieu Ian se lam tang khong gian tam kitm cea mo hinh Bien phap khic phut vim de nay la phai giam s6 chieu cea de lieu can khai pha va sir dung cac tri thirc ca sin de" loai be, nheng bien Wong pho hqp

d Du lieu thay dei lien Ate

A11500 — Nguyen Dire Holing

Trang 13

TONG QUAN VlE KHAI PHA Div LIEU

Hau ha cac CSDL c6 n6i dung thay d6i lien tic theo thai gian va gay ra he qua

la viec khai phi du lieu bj anh hiking tai theri diem quan sat du lieu Viec thay dbi dit lieu nhanh cheing co the lim mat gii trj cue cac min truck do, lion nfra cac bien trong

CSDL city img dung dA cho cling bj thay da, bj x6a hok bj tang len theo thbi gian

e Cac thu6c tinh der lieu khong phu hqp

MOt dk diem quan trong cue CSDL la tinh khong phu hqp cue dr lieu Nghia la rinic du lieu tit thinh khong thich hqp veri y nghia hien tai cita viec khai pha Mq't khia canh lchic aim tinh khong phu hqp cua thu6c tinh do la gia trj cue thuOc tinh do khong phin anh duqc y nghia hien tai ma chi thich hqp trong lich sir cue no

f Dit lieu khong day di*

Viec thiEu hut khong day du 6 day bao ham ca su khong day du ve gia trj va thuOc tinh coa dll lieu Su co mat hay khong c6 tn4 elm gia trj cac thu6c tinh phu hqp inh haring rat 16n den viec khai phi der lieu Viec quan sat khong day diz mat CSDL den den dua ra cac Met luon sai lam, tri thirc khai phi duce co the sai tech veri thuc

g Ck van de khic

Der lieu bi nhieu: ngoli viec du lieu bj 161, khong day dd thi ban than du lieu cling

tier!) An kha nAng bj nhieu

Van de Overfilling: Vii cac he thong khai pha der lieu theo mo hinh hqc giam sit,

tiro la hoc theo tri thirc dA biEt auk, khi do viec khai phi du lieu co the se xay ra tinh trong qua phi' hqp veri Met qua dA Met Nghia la ket qua cita mo hinh phu hqp vai tap dit lieu hart luyen nhung lei khong this stir dua ra cac tri thirc tot theo nghia img vai tap der lieu kiem tra BE khic phuc tinh twig nay thtrang phai thuc Men them viec kiEm tra cheo (cross validation) dE dinh gia m6 hinh, ho*c sir dung Men phip thong ke

'Chi sing tich hqp vai he thong khic: Mdt ling dung de dat duqc hieu qua cao va

link ho.t can co kha ning tich hqp veri cac he thong khac Nhtmg tre'n dive to viec nay

A11500 — Nguyen Dire Hoing

Trang 14

TONG QUAN VE !GUI PHA DI! LIEU

kha kho khin trong cac he khai phi de lieu Dieu fly xuat phat tir chinh trong cac 1c9 thuit khai phi de lieu li phai xiy clung *It mo hinh pha hqp de tim ra cac min du tnmg

1.4 Xu hiring nghien cfru vi vier irng dung cis khai phi d* lieu hien nay

1.4.1 Man nghiin criu

Khai phi de lieu li mot vvc mai vi mic de can rat nhieu van de chug duqc nghien ciru melt cic chgon vgn, nhung tiem ning vi khi ning ang dung caa no rat cao

vi di duqc chimg minh qua nhieu Ling dung thvc te Hien fly co mot so huemg nghien ciru ma khai phi de lieu quan tam den:

OLAM (Online Analytical Mining): li sr tich hqp gala CSDL, kho dir lieu vi khai phi de lieu MOt s8 he ca sec a lieu hien nay nhu Oracle, MS SQL Server da tich hqp xiy citing kho de lieu vi phan tich tnrc tuyin (OLAP) Nhcmg tinh nang nay duqc

he trq dtrai dang cac Ong cu di kem vi nguai sir ding phii mua de sir dung

Cac nhi nghien eau trong rah vvc CSDL can mutin co them sv tich him giea CSDL, kho de lieu vi khai phi dir lieu Khim phi duqc nhieu tri thirc khic nhau tit cac kieu de lieu Ichic nhau Tinh chinh xac vi hieu qua, kha ning ma ring vi tich hqp,

xir ly de lieu bt nhieu, khong day da vi tinh c6 ich cira tri thirc duqc khim phi Van de non ngO troy van trong khai phi dit lieu phii cung cap cho ngtrai sir dung mot neon nge thuin lien, gait gfri nhu SQL trong CSDL quan he

Khai phi de lieu di duqc ling dung rat thinh tong trong CSDL thi trubng Day li

mot phtrong phi phan tich CSDL khich hang, tim kiem cac man trong sot cac khich hang vi sir dung cic ink nay de Iva chop cac khich hang nem ning trong tucmg lai Tap chi Business Week caa my da dinh gii co ham 50% cic nhi bin le dang vi c6 (lath sir dung CSDL thI taking cho host dOng kinh doanh tea ho Cic ling dung khac tea khai phi de lieu trong kinh doanh nhu phin tich tht tnkmg chimg khoin, phin tich van kien tai chinh, phan tich vi bio cao cac thay doi de lieu bin hang sieu chi

1.4.2 Ong dyng csia khai pith der Wu trong Myr ti

Khai phi do lieu lien quan den nhieu nginh nghe, nhieu Iinh Arc nhu: thong ke, tri tue nhan tao, he chuyen gia, CSDL, thuit town, tinh song song Meat he thong khai phi du lieu dien hinh bao gom cic phuong thee, thuit town, k9 thuit tir nhieu filth vvc khic nhau Diem chung giea cic he thong nay la tau trich rat tir cac kho de lieu co kith thuerc rat lem

A11500 — Nguyen Dirc Hoing

Trang 15

TONG QUAN VE ICHAI PHA Do- tau

Khai pha dit lieu duqc sir dung trong rat nhieu cac linh vtic khoa hue, kinh doanh :

Bao hiem, tai chinh va chimg khoan: a day khai pha dit lieu co nhiem vµ phan tich tinh hinh tai chinh, dg bao gia, chi se cac loai co phieu, phan tich du lieu the tin clung phat hien gian lan tai chinh

Thong ke, phan tich dit lieu ha trq ra guy& dinh: dtra vao s6 lieu c6 sin, phan tich dit lieu de dua ra nhi-mg quyet dinh dung luc, co lqi nhat

Dieu trj y hoc, chain sec y te: mot so thong tin ve chuin down benh km trong he thOng quan l$, benh vien, tit do phan tich mOi lien he gifta cac chirng benh, chuin down benh de dua ra phuong phap dieu trj

Test Mining va Web Mining: phan 16p van ban va cac trang web, tom tit nOi dung van ban, tir do co the Whom cac van ban, trang web theo clang chi de, lqc be cac trang dOc hai

Quin trj mpg, phat hien truy cap bit thuerng: Phan tich der lieu troy cap de phat hien cac truy cap bit thirimg hay cac truy cap veci muc Bich xAu

sanh cac he gene va thong tin di truyen

1.4.3 ling dyng cite khai phd dir1ifu trong Wee gitii quyit Sc nhom bei Win kink doanh

Phan tich khach hang: Nhitng khach hang nao co nhieu kha nang chuyen sang

Clang phai dOi mat nghiem gong v6i yin de can!' tranh hien nay Trung binh moi thue bao dien thoai moi tieu tan khoang 200$ diu to tiep thj Chuan analysis c6 the the gulp cac nha quitn ljr tiep thj hi'eu duqc 15, do thay doi caa khach hang, cal thien quan he khach hang, va can ding tang khach hang trung thanh

Ban hang cheo: Nhimg san phan nao la khach hang co the mua? Cross-selling la mOt thach thirc kinh doanh quan tong cho cac nha ban le Nhieu nha ban le, dk biet la cac nha ban le trrc tuyen, sir dung tinh fling nay de tang doanh se ban hang cila hce.Vi

dv, neu ban ghe tham cira hang sach truc tuyen Sur Arnazon.com hay Barnes and Noble.com de mua mOt cam sach, ban c6 the nhan thiy ring cac trang web nay cung cap cho ban mOt tap hqp cac kien nghj ve sach lien quan Nhitng khuy'en cao nay co the dirge bit nguen tit viec phan tich va khai thac di: lieu

A11500 — Nguyen Dirc Hoang

Trang 16

TONG QUAN Nit KHAI PHA Hos tau

Phcit hien gian Day c6 phai la mit you au b6i thuing gian Lan bao hiem? COng ty bao hiem xir 15, hang ngan tuyen ha mit ngay Khong de ding cho ho de dieu tra tirng tnrOng hqp Khai thic du lieu co the glop xac djnh nhimg you cau ma nhieu kha nang la sai

Quan ly nii do: Khoan vay do nen duqc chip than cho khach hang nay khong? Day la cau hoi ph6 biEn nhat trong kjch ban ngan hang K9 that khai thic de lieu co the duqc sir dung de diem mirc di rdi ro ctia khach hang, giap quan 15, din ra quyet

djnh thich hqp cho mai img dung

Phan logi kluich hang: 1Chach hang ciut tii la ai? Phan Ioai khach hang glop ac nha quan 15, dap thj hieu duqc cat cau hinh khac nhau cim khkh hang va c6 nhimg Milli ding tiep thj phi' hop dtra ten cat phan loci

Myc tieu quang cao: Banner quang cao se hien thj dieu gi cho tirng khach hang truy cap cp the? Web ban le va cac trang web cling thong tin nhu de ca nhan hoa nii dung dm ho cho khach hang Su dung dieu htrOng elm khach hang hoc cac m6 hinh mua hang trot tuyen, cac trang web nay c6 the sir dung cac giai phap khai that di: lieu

de hien thj mix tieu quang cao cho rnmc dich cim khach hang

Dg bcio ban hang: Co bao nhieu loci ruqu tii se ban trong cira hang tan nay ? K9 that khai that da lieu du bao c6 the duqc sir dung de tra lai nhimg cau &Si lien quan den thOri gian

A11500 — Nguyen Bac Hang

Trang 17

CAC KY THUAT KHAI PHA Hy LIEU

CHUtING 2 CAC Kt THUAT !MAI PHA DO' la

Cac 1C9 thuat khai pha de lieu thoc chit khong ca gi med N6 la so ke thin, kit hqp va ma rong cua the kg thuat ca ban di &nye nghien ciru tir truerc nhu hqc may, nhan clang, thong ke (hei quy, phan loci, phan nhom), cac me hinh de tht, mang bayes, tri tu'e Stan tao, thu thap tri thirc he chuyen gia Tuy nhi'en, lied so ket hqp tai tinh

cua khai pha du lieu, Icy thuat nay c6 tru the han hin cac phuang phap truerc do, dem lai nhieu teen vong trong viec phat trien nghien thu khoa hqc ding nler ap ding thoc tien va no co the dirge Chia lam 2 nhom chinh sau:

Ky thuat khai pha de lieu mo ta: co nhiem vu mo to ve cac tinh chit hoac cac dac tinh chung caa der lieu trong CSDL hien co Nham kg thult nay gem cac phuang phap: phan nhom, king hqp, phat hien so teen dei va de tech, phan tich luat ket hqp

Ky thuat khai pha du lieu do down: co nhiem vu dun n cac do down doa vao suy dien teen der lieu hien that Nhom kg thuat nay gem cac phuang phap: phap lop, hei quy

2.1 Peen lop de lieu

2.1.1 Ma hinh phon cay quyit dJnh

cua cac bien duct bieu dien beri dtremg di tir nut gee tai nut la de Ky thuiit hoc may dung trong cay guy& deth dirge goi la hoc bing cay quyet dinh, hay chi gqi veri tai ten ngin gon la cay quyet dinh

A11500 — NguyIn Dec Hoing

Trang 18

CAC KY THU4T KHAI LIU

< 35 > 35 salary

Hinh 3: Vi du ve cay quyet djnh

b Cac kieu cay quy& dinh

Cay quyet djnh con co hai loci:

- Cay hei quy (Regression tree): uec luang cac ham c6 gia trj la se thuc thay vi

duqc sir dung cho cac nhiem vu phan loci (Vi du: Sc tinh gia met ngoi nha

hoac khoing thiri gian met benh nhan nim vien.)

- Cay phan loci (Classification tree): niu y la met Men phan loci nhu: gioi tinh

(nam hay n0), ket qua cita met tran du (thing hay thua)

c diem cita cay quyet djnh

So vei cac phuang phap khai pha der lieu khac, cay quyet dinh la phuang phap c6

met se uu diem:

- Cay quyet djnh de hitu Ngutri to co the hieu and hinh cay quyet djnh sau khi

duqc giai thich ngin

- Viec chitin bj du lieu cho met cay quyet djnh la co ban hoic kb:mg can thiet

Ck k9 that 'chic thutmg dei hoi chuin hea du lieu, can tao cac bien phu

(dummy variable) va loai 136 cac gia trj rang

- Cay quyet dinh co the xir IS/ Ca der lieu co gia tri bing se va dit lieu co gia tri la

ten the loci Cac kji thuat khk thueng chuyen de phan tich cac be dit lieu chi

gem met lout bier Ching han, cac luat quan he chi 05 the dimg cho cac bier

ten, trong khi mang na-ron chi co the dung cho cac bi'en ca gia tri bing se

A l 1500 — NguyIn Dec Hoing

Trang 19

CAC KY THU4T KHAI PHA Did LIVU

- Cay quyet djnh la met mo hinh hop tring Mang no-ron la met vi du ye me hinh help den, do lai giai thich cho ket qua qua phirc tap de co the hieu duqc

- Co the thim djnh met ma hinh bang cac kiem tra thOng ice Dieu nay lim cho

to c6 the tin Prang vao mo hinh

d Phan km de lieu bing cay quyet djnh

Phan lap dua ten cay quyet djnh rat thich hqp cho viec khai phi de lieu vi cay quyet djnh co cau tnic don gian, de hieu vi co the duqc xay dung lcha nhanh tir cay

Quy nap cay quyet djnh la met qua trinh hqc tip coa cay quyet djnh tir cac phan 16p coa be di) lieu huin luyen (training tuple) Met cay quyet dinh la met bieu do ding

de lieu nhu ciu trim cay, moi nut trong (khang phai la) mpg ttung cho met thuec tinh kiem tra, mOi nhanh dai then cho ket qua ctia viec kiem tra, va moi nut la (hay nit giai hen) gift met lop phan Nut diu fien ten cay la nut gOc

Qua trinh phan 16p de lieu thong qua 2 buoy co ban nhu sau:

- Xay dung me, hinh tir tip huin luyen

- Sir dung ma hinh, kiem tra tinh thing din dm mo hinh va dung no de phan lop

do lieu mei

e Xay dung cay quyet djnh

Xay thmg cay quyet dinh deu duqc chia ra lam 3 giai (loan co ban:

- ray chmg cay: Thuc hien chia met cach de quy tip mau de lieu huat' luye'n cho den khi cac ink a mai nut la thuOc ding mot lop

met cay con vao trong met nut la

- Dinh gia cay: Dung de danh gia de chinh xac caa cay ket qua Tieu chi dinh gia la tiring so mau duqc phan lap chinh xac tren king s6 mau dua vao

2.1.2 Mil hinh phiin ldp dB lieu Bayer

a Gieri thieu

Nạve Bayes la phucmg phap phan loth dua vao xac suit duqc sir dung rOng rai trong lint) vim may hqc [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], duqc sir dung lin dku tien trong 14th vuc phan loth bai Maron vao nam 1961 [Maron, 1961] sau do

A11500 — Nguy4n Dire Hoing

Trang 20

ter nen phO bien dimg trong nhieu linh Arc nhu trong cac cong cu tim kiem [Rijsbergen et al, 1970], cac be, luc email [Sahami et al, 1998]

MO hinh phin 16p Nạve Bayes dva tren djnh 19 ctia Bayes ve xac suit co dieu kien, veri gia thief cac thuOc tinh la dOc lip xac suit

b That tan phin lore Nạve Bayes

That town dva tren djnh ly Bayes duqc phat bieu nhu sau:

P(BIA)P(A) P(AIB) =

P(B)

- P(AIB): Xac suit xay ra A khi B di xay ra

- P(BIA): Xac suit xay ra B khi A xay ra

- P(A): Xac sat xay ra A,khong quan tam den B

- P(B): Xac suit xay ra B khong quan tam den A

Ap dung trong bai tan phin loci, cac dii kien gom co:

- X: tip der lieu huin luyen di ducat vector hoa dui% ding = (x 1 , x2 , , x„)

- Ci: phin lop i, veri i = {1, m}

- Cac thuOc tinh detc lip dieu kien doi meit veri nhau

Theo djnh ly Bayes:

CAC Kt THUAT ICHAI PHA Dir LItU

p pc co P ( c i) P(ci lx) = P (X)

Theo tinh chit dOc lap dieu kien:

P(XIC i ) = finxkico

k= 1

Trong de:

- P (CL IX) la xac sat thuOc phan lop i khi biet truck mau X

- P(Ci) xac suit la phin lop i

- P(xk ICi) xac sat thuOc tinh Mir k mang gia tri xk khi da hi& X thuOc phin 16p i

c Cac buerc thvc hien thuot town Nạve Bayes

Thuit town gem hai giai down huin luyen va phan 16p:

A11500 — Nguyen Dirc Hoang

Trang 21

CAC Kt THUAT ICHAI PHA DC)' LI$U

- Buck 1: HuAn luyen Naive Bayes (chra vio tap du lieu), tinh P(Ci) vi

P(xk ICO

- Buec 2: Phan hip = (x1, x2, ,xn), ta can tinh xic suit thuec timg phfin hip khi dA biet truck Xnew Xnew duqc gin vio lip co xic suit lern nhit theo cong thirc

max (P(Ci) fiP(xklCi)) C1EC

k=1

Don gian, de cai dat do gia djnh cac thuelc tinh la doe lip

C6 the sir dung thong tin qua khti de du bao twang lai Khi met du bio xuAt hien trong thirc te, chung lai duct dung de tinh town lai mo hinh du bao cho cac phan tich tiep theo

Suy dien chinh xac dua tren tic tap d0 lieu Viec suy dien tren cac miu nho cling tuong to nhu tren cac mau len

Cung cap k& qua c6 the dien giii a ding bang nen VI to nhien

Co the chay duqc trong ca truing hqp met se mIu bi thieu dil lieu

de king ding 9 vii each chon tham s6 dau vio

Chi phi tinh town kha cao khi co nhieu tham s6 dau vio Cac kat qua me phong cho thy ket qua phan ph& xic suit hui khic nhau neu top huAn luyen la met top con ciia du lieu co sin va mOi lan huk IuYen ta lai chon mot top con khic nhau

2.2 Phin cym di/ lieu

a Giei thieu

A11500 — Nguyen Dirc Hoang

Trang 22

CAC Kt THUAT KHAI PHA Di)' LIEU

Gom cum dir lieu la hinh thirc hoc kheng giam sat trong do cac mau hoc chin duqc gan than Muc dich cua gom gun dir lieu la tim nhimg mau dai Bien hoac gom di:" lieu tuang qr nhau (theo mot chuir' danh gia nao d6) thinh nhfing cum Cac diem di: lieu nom trong cac cum khic nhau c6 dO twang to thip ban cac diem du lieu n&m trong cum

Phan tich cum co nhieu img dung !Ong rai, bao g6m nghien ciru thj Huang, nhan clang mau, phin tich du lieu va xir anh Trong kinh doanh, phin tich cum co th'E giup cac nha marketing kham pha str khic nhau gicra cac nhom khach hang dva tren th6ng tin khic hang va cac dac trung cua cac thorn khach hang dva trEn cac mau mua hang Trong sinh hoc, no co the duqc sir dung dE phan lo3i thvc vat vi dOng vat, cac mau gen veri cac chirc nang twang tv nhau Phan tich cum can co thO phin loci dot theo ding fling host thvc ti six dung dE co chinh sach qui hooch phu hqp, phan loci cac tai lieu ten Web

b Ck icieu phan gun dir lieu

Gia sir mOt tap di': lieu dung de phan tich cum china n dai tuqng (cac d6i tuqng co thE 11 con nguiri, nha, tai lieu ) Cac thuat wan gom gun thuang xir 15 , hen mot trong hai can true din lieu sau:

- Ma trot' der lieu: Bieu then n d6i tuqng, nhu con ngtrai, yeti p Bien (con duqc goi la cac phep do hay cac thuOc tinh), nhu tuoi, chiEu cao, can nang, gieti tinh

- Ma trap phin biet: De bitu than khoing cach giaa hai diEm (d6i tuqng) trong khong gian der lieu g6m n d6i ttrqng theo p thuOc tinh to dung ma tran phan biet

c Ck uu diem ciia phan cum

CO kha nang lam viec hieu qua veri luqng dir lieu Ian: Phan tich cum hen mot

man dii lieu lam co thE din den cac kat qua that lech Can phai co cac thuat toin phan

cum ten CSDL lam

CO kha nang /fir b, cac clang dft lieu khac nhau: NhiEu thuat town duqc thiet k le d'E xir IS/ der lieu bang sta Tuy nhien, cac (mg dung co the you cau phan tich cum cac clang

du lieu khk, nhu din lieu nhj phan, phin loci, vat tv hay su trOn lan coa cac kiOu der lieu

CO kha nang kham phi ra cac cum veri cac clang bat kt: NhiEu thuat toan phan cum dva ten cac v.!, do khoing each Euclide hay Manhattan Cac thuat twin dva ten

A11500 — NguyIn Dire Hoing

Trang 23

CAC Kt THU4T ICHAI PHA Di) LI$U

cac so do khoang cach c6 xu huong tim cac gun hinh cau veri kich thu6c va mat de hong tv nhau Tuy nhien, met cum (cluster) c6 the co hinh clang bat kY Do do can phat thin cac thuat than a tim cac cluster birth ding bit kY

Yeu cau t6i thieu tri thirc link vtre nhiim xac djnh cac tham se dku vao: Nhieu thuat town phan cam doi hoi nguvi dimg nhap cac tham so trong phan tich cum Cac ket qua phan ctun co the bj anh htremg vio cac tham sot dau vio Cac tham s6 thtnang kho xac djnh, dac Wet dai von cac tap de lieu chfra cac dal tucmg du lieu nhieu chieu

CO kha nang lam viec v6ri du lieu nhieu

Kheing bj anh hiking vio thin vr nhap cila der lieu

Lam viec bat tren CSDL co se) chieu cao

Chap nhan cac rang butjc do ngueri ding chi djnh

Co the hieu va sir dung duqc cac ket qua gom gun

2.3 Hai quy

a Gieri thieu

Trong khai phi der lieu, hOi quy la viec hoc met anh xa tir met mau adieu thinh met bien dv (loan co gia tri thvc Nhiem vu Cila hoi quy tuang tv nhu phan lap, diem Ichach nhau chinh o che thuec tinh di; doin la lien Vic chic khong red rac Viec cltr doin cac gia tri s6 thuting duqc lam beri cac phtrcmg phip thong ke c6 dien chin han hoi

quy tuyen tinh Tuy nhien phucmg phip m8 hinh haa cling co the duqc sir dung nhu cay quyet djnh

Hai quy la viec hoc met ham anh xa tir met mau de lieu thanh met bien dv doin cif) gia tri thvc CO rat nhieu ling dung khai phi de lieu voi nhiem vu hoi quy, vi dv nhu danh gia kha ning tir vong cilia benh nhan biet cac ket qua xet nghiem chuan doin,

dv doin nhu cau tieu thu met sin pham mai bang mot ham chi tieu quang cao, dv doin theo than gian voi cac bien &au vio la cac gia tri cila mau dv doin trong qua khir, v.v

b Cic clang bai quy

Met s6 dang hai quy thtrang duqc ap dung: hoi quy tuyin tinh, hai quy logic, hai quy Poisson va hoi quy hoc co giam sat

Phan tich hoi quy kh6ng chi la tang kW, diking cong (Iva chop met duang cong ma vira Ichop nhat yeti met tap diem de lieu), no con phai tang ;chap Arai mot mo hinh voi cac thinh phan sai se va thinh phin xic djnh

A11500 — Nguyen Dirc Hoing

Trang 24

CAC Kt THU4T KHAI PHA Hier LIU

Dang dun gian 'that cua mot mo hinh heti quy (Y = aX + b) china mot bien phi thuOc (can gel linbien dau rarbien not sinhrbien duqc thuyet minh", harbien-Y")

va mot hien dije lap don (can ggi sarbien ngoai sinh","bien thuyet minh", hay"bien-X")

hay sir phv thuOc cua tang luqng Y elm mot con thu nao d6 theo khan phan that an

hang ngay X Sr phi thuOc nay duqc goi la hoi quy cua Y len X

2.4 Lust ket hqp

a Geri thieu

Duqc gieri thieu tir nam 1993, bai toan khai thic 101 kat hqp nhan dirge rat nhieu sir quan tam ciia cac nha khoa hoe Ngay nay viec khai thic cac luit nhu v3y van 11 mot trong nhftng phuong phip khai thie matt ph6 hien nhat trong viec khai phi tri thiic

va khai pha Mt lieu

Trong host dOng san xuat kinh doanh, vi di kinh doanh cac mat hang t in sieu thi,

cac !MI quan ly rat thich c6 duqc cac thong tin mang tinh thong k'e nhu: 90% phi nu

co xe man d6 va deo ding h6 thy sk thi dimg nuec hoa Chanel hoc 70% khfich hang

la cong titian khi mua TV thuang mua loci 21 inches NM -mg th8ng tin nhu v#y rat him ich trong viec dinh hut:mg kinh doanh Van de dat ra la lieu c6 tim duqc cac lust nhu vay bang cong cv khai pha dO lieu Being? Cau tra leri la hoan town cc') the D6 chinh la nhiem vi cua khai pha lust ket hqp

b Ck khai niem ca ban trong Khai phi lust ket hop

Ludt Kat Hop (association rule): 11 dang !Etat bieu dien tri thirc a clang Prang dOi

don gian NO The hien m6i lien he (c6 dieu kien) gift cac tap phan M Cho A va B la cac tap phin tir, lust ket hqp gicra A va B la A 4 B B xuat hien trong dieu kien A xuat hien

DO hoz tro (supports): DO do do tin s6 xuat hien dm cac phan tir, tap phan tir

Trong supports co Minimum support (nguerng h6 trq t6i thieu) kw la gia tri h6 trq nhe nhat dirge chi dinh bed ngtkri sir Ming

Ging thirc tinh ENS h6 trq elm tap phan kr X, ky hi'eu Support (X).Dan vi tinh %:

cac giao dich hO trq X Support(X)

tong sd cac giao dich

A11500 — Nguyen Dile bang

Trang 25

Support(X =

Tong so cac giao dich

T6ng so' lung giao dich chin ca X, Y

CAC Kt THU4T KHAI PHA LICU

Cling thirc tinh dO ho trq cua luit ket hqp X -> Y, ky hieu Support(X->Y) Don vi tinh %:

Do tin cay (Cofidence): DO do do tin so xuat hien dm mOt tap phin to trong dieu kien xuat hien dm mOt tap phin to khk Trong Cofidence co Minimum confidence (ngutmg tin cay tOi thieu) tirc la gia tri confidence nho nhit duqc chi djnh beri ngueri dung

Cling thirc tinh dto tin cay cua luat ket hqp X->Y, ky hieu Confidence(X->Y), don vi tinh %:

Confidence(X Y) —

S6 giao dich chfra X

DO tin cay (Confidence) bieu dien mac dO dimg cua quy tic X-> Y

Phim tit (Item): Ck phin ter, tau, del ttrqng dang duqc quan tat' n

Tip phin to (Itemset): Tip hqp cac items

Giao Dick (Transaction): Lin thut hien nrcmg tac yeti hg thOng (vi du: giao dich"khach hang mua hang")

Tap phim to phi; Min (Frequent itemset): Tip phin ter co support thoa minimum support threshold

Ludt kit hqp manh (Strong association rule): Luit kit hqp do support va confidence thoa minimum support threshold va minimum confidence threshold

Vi du: phan tich CSDL ban hang nhin duqc thong tin ve tithing khach hang mua may tinh co khuynh throng mua phin mem quail ly tai chinh trong ding Ian mua duqc mieu to trong loaf ket hqp sau:"mdy tinh => phiin mem gam 15; tai chinh" [DO he trq: 2%, DO tin cay: 60%] May tinh, phin mem quim ly Si chinh la cai Itemset, do ho trq 2% nghia la 2% dm tat ca cac giao dich da phan tich chi ra ring may tinh va phin mem quan lY Si chinh duct mua cling nhau DO tin cay 60% nghia la 60% cac khach hang mua may tinh cling mua phin mem

c Ck buck antic hien khai pha luit ket hqp

Phfit bieu bii toin:

Diu vao:

Tong s6 Itrong giao dich chira ca X, Y

A11500 — Nguyen thic Hoang

Trang 26

CAC Kt THUAT KHAI PHA DC' LIt1.1

Cho mat tap mix I = {Ii, 12 Im }

Mat co so: dir lieu giao (Lich D (n giao dich)

Do he trq telt thieu minsup vi di) tin ch tOi thieu mincof

Diu ra:

Tap cic luat ket hqp R: X-> Y sao cho Support(X->Y) >= minsup vi confidence(X->Y)>= mincof

Giii quyet bii town:

BSc 1: Tim tat ca cic tap mix phi) Bien, mot tap mqc phi) bien duqc xk dinh qua Unit de; M trq vi them man di) hi) trq t6i thieu

BSc 2: Sinh ra cic luat ket hqp mph to tap mqc ph6 bien, cic luat phii them man da ho trq tei thieu, da tin cay eel thieu

d liu nhuqc diem cua khai phi luat ket hqp

Luat ket hqp c6 khi nang img citing trong nhieu filth vIrc kinh doanh, y hqc, tai chinh, thi truing chimg khoin, phan tich quyet dinh, Luat ket hqp la mat clang luat khi dam giin, de khai phi nhtmg thong tin ma clang luat nay dem lai rat c6 ich cho viec

he trq ra quyet Binh

e Mat se' thuat town khai phi luat ket hqp

Hien nay c6 mot s6 thu4t than hay duqc sir dqng de khai phi luat ket hqp:

Thu* town Apriori la thuat town khai phi luat ket hqp do Rakesh Agrawal, Tomasz Imielinski vi Anin Sawami dua ra nam 1993

Thuat town Apriori-TID la thuat town cii tien cita Apriori giop tang tic do xir bf

dir lieu

Thuat town Apriori-Hybrid la su ket hqp gitra Apriori vi Apriori-TID

Thuat town FP-Growth

Thuat town khai phi luat ket hqp song song Count Distribution, Data Distribution, Candidate Distribution

2.5 Dv bio

Day la mat tic At dang vai tra quan tong yeti khai phi du lieu Mqc dich cuoi ding ctia khai phi dit lieu glop nhi quin tri c6 the nim bit duqc xu huemg vi dua ra quyet dinh trong tom lai viii khi fling thinh cong cao nhat Thus:mg dtra tren mat tap s6 lieu len ve cic th8ng tin da xay ra vi Gong viec hien tai Ia phan tich de dua ra cac

A11500 — Nguyen 3ire Wring

Trang 27

— Gia — Khoi lugng

CAC Kt THU4T KHAI PHA Dir LI$U

ket luan c6 kha nang tin Gay cao Vi dp: met ngu&i chai chimg khoin mutan dau ttr vao met ma co phieu Truerc d6 hq se tang hqp cac thong tin ve Lich sir giao djch cita ma co phieu 86 veri cac tham so lien quan nhu: so ngtroi mua, so ngutti ban, kh6i luqng giao clich Tir do, co the khai phi duqc trong than diem ma thi trutmg di len hoac di xu6ng, gia tsi cita ma co phieu co bj anh huerng hoc kW:Si lucmg giao djch co tang hay khong Tirc 11 cac nha phin tich co the du bio dtrqc nhitng"mau hinh" cira thj trtrimg bang ckh"dqc" cac dot) thj ty gia, not cach khric hq tin tuang vao"viec lap 10 cita su vi'ec trong qua kh*" Phuong phap nay duo tren tinh thong k'e de duo ra ket qua du doin tin coy va de hieu, de sir dung Vi du: trong diu to co phieu, dei veri cac nha dau

tu, hq quyet dinh mua hay ban chirng khoin duo tren host deng cua thi tratmg vi str thay doi xu htremg thj truimg Dinh gia sty di len va xuOng ctia thj tnrerng tai timg thai diem nhat dinh Bieu dt, du doin str tang giam cti phieu DSC ngin han

2.6 Tang hop hea (Summarization)

La cong viec lien quan den cac phtrong phap tim kiem met me to tap con der lieu K9 thuat mo ta khai niem va tong hqp 116a thutmg ip dung trong viec phan tich dir lieu

co tinh tham de va bio cao to deng Nhiem vu chink la son sinh ra cac mo to dac trong cho met lop MO ta loaf nay la met kieu tong hqp, tom tit cac dk tinh chung ctia tat ca hay hau het cac muc ciia met lop Cac me ta dac thing the hien theo loot co clang sau:" Neu met muc thuec ve lap da chi trong lien de thi muc do co tat ca cac thuec tinh da neu trong ket luan" Cac luat clang nay co khic biet so viii cac luat clang phan lap Luat phat hien dac tnmg cho lop chi san sink !chi cac muc da thuec ve lop dO

2.7 Ma hinh hes sp phi? thuac (dependency modeling)

La viec tim kiem met mo hinh mo ta str phu thuec gift cac bien, thuec tinh theo hai muc Mirc cau &lc coa me hinh mo ta (thuimg dueri clang de th0, trong do cac hien

Al 1500 — Nguyen Dire Hoing

Trang 28

CAC Kt THUAT KHAI PHA DU LICU

phi thuoc hi) phan vao cac bien khk Va muc dinh luqng mo hinh mo to mire dO phu thuoc Nhfing phu thuOc nay thuerng duqc bieu 011 dueri clang luat"neu-thi" — neu fien

de dung thi ket luan dung VE nguyen tic, ca tier de va ket luan du co the la stir kEt hqp logic cita cac gia tri thuoc tinh Tren thuc te, tien de thuong la nh6m cac gia tri thuOc tinh va ket luan chi la mot thuijc tinh Hon ntia, hg thong co the phat hien cac luat phan 16p trong d6 tat ca cac luat can phai co cling mot thuOc tinh do ngtred dung chi ra trong ket luan Quan he phu thuOc cling co the bleu dien dueri ding ma ting tin cay Bayes D6 la dO thi co huerng khong chu trinh Cac nut bleu dien thuoc tinh va tong so elm lien kat phu thuoc gift the nut do

2.8 PhIt hifn std Min di vi dO lich (Change and deviation detection)

NhiOin Ai nay tap chung vao kham phi hau het stir thay d0i co nghia dueri clang

dO do di Nat trirerc hoc gia tri chuin, phat hien di) tech ding ke gift not dung cila tip con du lieu thuc va nOi dung mong dqi Hai me, hinh do Lech hay dung la loch theo th&i gian va l'ech theo nhom DO loch theo thin gian la su thay tfoi coy nghia cua der lieu thin gian DO loch theo nhom la stir khac nhau cua du lieu trong hai tap con du lieu, 6 day xet ca trtrOng hqp tap con du lieu nay thuoc tap con kia Nghia la xic dinh dit lieu trong mot nhOm con ciia dOi tuqng c6 khac ding kE so vOi toan b0 dt)i tirqng hay Ichong? Theo cach nay, sai sot du lieu hay sal Rich so veri gia tri thong thu6ng se duqc phat hien

A11500 — Nguyen Due Hoang

Trang 29

KHAI PHA DO' LIEU TRONG SQL SERVER 2012

CHICONG 3 KHAI PHA "Kr LI$U TRONG SQL SERVER 2012

3.1 Mil hinh OLE DB trong SQL Sever

3.1.1 Gliti thifu

Duqc giei thieu vio thing 7 Nam 2000 N6 co nguen geoc tir hai ding nghe ca se der lieu chinh: OLE DB vi SQL Tieu chu& nay thong qua cac khai niem co sa de lieu quan he va nhieu ap dung cita chting vac linh yip khai thac der lieu Phan cot lOi cea OLE DB la Data Mining eXtensions (DMX), mot neon ngir- truy yin SQL-style cho khai thac der lieu Dic to nay thingbao gOm mot danh sach cac chin nang du bao duqc xac djnh fru& va mot be schema rowsets Cac schema rowsets cho phep cac img dung cita ban kham phi cac me hinh khai thac vi cac (Lich vu khai thac to tong

Muc dich chinh ctla OLE DB la cung cip met cach thac chuin de truy cip vao bang dr( lieu Truck khi OLE DB ra deri, each IMO bien Mit de truy cip vac) met ca se

dO lieu quan he duqc thong qua Open Database Connectivity (ODBC), mot API Oa tren chuin SQL C Level Interface ODBC cung cap met cach de clang truy van cac loci co se lieu quan he Tuy hau bet cac dO lieu khong duqc Itru trong co se do lieu quan he DO lieu duqc tim they trong cac tip tin van ban, email, bang tinh Excel, tai lieu Word, Bon muen truy cip vat) tit ca do lieu tren theo cach twang to nhu cach ban truy cip dir lieu quan he, tea nhit la thong qua cling met API OLE DB duct gieri thieu cho now dich nay

Ifinh 5: Kiln Pic clic: Object Linking and Embedding Database (OLE DB)

A11278 — Doan Thanh Cong A11500 — Nguyen Dec Hoing Trang 28190

Trang 30

KHAI PRA D' LIEU TRONG SQL SERVER 2012

Cac chucmg trinh irng dung do the ket non tin cac nguan clit lieu khai pha khac nhau thOng qua cac ket non OLE DB hoic ADO Mai OLE DB cho met nguan dit lieu Data Mining, cung cap met tip cac giai thuit khai pha de lieu Cac thuit town nay co the truy xuAt bit 4 nguan de lieu dung bang nao th8ng qua OLE DB Du lieu nguan c6 the luu ter a trong nhieu clung nhtr CSDL quan he, OLAP cubes, file yin ban hay email

DE c6 kha ning trO thanh met chart chung cho khai pha de lieu, OLE DB dinh nghia met tip cac giao tiep Cie giao tiep nay duce cal dit ix% cac den tuqng Chimg bao gOm:

Ddi twng ngudn dik lieu (Data Source Object): la met dei mpg COM ma thong qua d6 cac chucmg trinh ang dung ket not ten nguan de lieu Mai met nguttin dit lieu, OLE DB cai dit met lap doi tucing rieng cho no De ket non ten met nguan de lieu OLE DB, cac chucmg trinh Ong dung can phai khai tao 16p nay truerc Data Source Object thuc thi giao tiep IDB Create Sesion la giao tiep h6 trq de mieu to cac thong tin sieu de lieu

Doi turmg phien (Session Object): cung cap mot ngit canh cho met phien giao tic NO sir dung giao tiep IDB Create Session, met Data Source Object c6 the tao ra met se luqng cac phien NO thuc thi giao tiep 1DB Create Command

Doi twng phien (Session Object): cung cap met nit canh cho met phien giao tic NO sir dung giao tiep 1DB Create Session, met Data Source Object co the tao ra met so lucmg cac phien N6 thuc thi giao tiep IDB Create Command

Doi tuTyng tap cac dong (Rowset Object): no la en Wog trung tam cho phep tit ca cac nguan de lieu OLE DB truy xuat de boc tach dit lieu ra clued ding bang Met tip du lieu rowset c6 the hieu then khai niem la met tip cac dong

ma mai dang co cac cot dit lieu Chuang trinh se duyet cac rowset de lAy ra cac dit lieu khac nhau Ket qua truy yin tra ye la met tip cac rowset co dung bang (gam column ya row)

A11500 — Nguyen Dec Hoang

Trang 31

KHAI PHA DC! LIEU TRONG SQL SERVER 2012

Hinh 6: Ccic doi Won trong OLE DB 3.1.2 Clic khdi nifm co ban trong OLE DB cho Data Mining

Case: Data Mining 11 phan tich cac cases — moToi case II mot tap cac thut)c tinh

(attributes) MOi thuec tinh c6 the do met top cac gia tri goi la cac tang thai V1): thuec tinh giei tinh c6 2 tang thai la: nam vi ner

Case Key: la thuec tinh xac dinh duy nhAt cho m61 case N6 thuimg la kh6a chinh

dm mot bang quan he Thinh thoing, met case c6 the c6 khea tong hop (gem vai thuOc tinh) Vi du: First Name va Last Name c6 the ducrc ghop lai thinh khea do tuyen

Nested Key: mac de Case Key c6 the &roc quyet dinh lam kh6a chinh, nhung

kh6a long nhau tit khac biet vei kh6a ngoai Case Key chi de xk dinh tinh duy nhAt nhung 13i kheing chira cac niu (va thuerng bi be qua beri cac thuAt town khai phi der lieu), can khea king nhau lai la thuOc tinh quan tong nit Cac thu'Oc tinh khac a trong phAn long nhau dung de mieu to khea 16ng nhau

Case Tables viz Nested Tables: met bang case chira cac thong tin lien quan den

phAn nen dia case Mal bang Tong nhau la met bang chin cac thong tin lien quan den phAn king nhau cim case N6 thirimg IA bang giao tic (transaction table), VD: lich sir giao dich mua hang, logs truy cap Web Mt)t bang long nhau c6 the k'et n6i v6i bang case nha dimg Case Key De ket not bang case va bang Icing nhau theo mo hinh ke

thin, OLE DB dinh nghia phip toin Shape

Scalar Column va Table Column: met cOt trong mo hinh khai pha no giOng nhu

met cot trong mo hinh quan he, no cling dirqc goi la bien hay thuoc tinh trong thwAt ngil thong ke

A11500 — NguyIn Dirc Hoing

Trang 32

KRAI PHA LIEU TRONG SQL SERVER 2012

Thy theo mvc Bich sir dung, me hinh khai phi de lieu co the do 4 kieu cot la: khem, dau vao, dv doan va met cot chira ca dau vau va dv doan Met vai thuat toan nhu

la phan cum, kheng you cau cac cot dv doan Trong truerng hqp nay, me hinh khai pha c6 the chi bao gam cac cot d aau vao

Co 2 loai au trite cot la: vo Wong (scalar) va bang (table) Phan len cac cot la cot vo htremg Mtn cot ve hiving cira mot tap cac ban ghi rieng bier co gia tri dun Vi dv: Tit& va Geri tinh la cac cot vo hut:mg Met cOt bang la mot cot dic bier NO chira met bang ben trong Vi du: ThuOc tinh Purchases chinh la mot cot bang (chira thong tin ve san pham va se Itrqng hang khach hang da mua) OLE DB co khai niem ve tap der lieu ke this: phan nen dinh cho ck cot vo htretng va phan phan cap la cac cot bang

Data Mining Model: me hinh khai pha de lieu co the duqc hieu la met tap cac bang quan he N6 bao gem cac cOt khoa, cOt dau van va cac cot dv doan Moi mo hinh duqc gin veri met thuat toan khai pha de lieu ma tai d6 mai me hinh duqc huan luyen Vie huan luyen met me hinh khai pha tirc la tun ra cac matt 4p hqp de lieu bang cach

dac to cac thuat loan khai pha de lieu veri cac thong se phh hqp Sau qua trinh huk

duqc Trong khi met bang quan he la tip cac bin ghi thi me hinh khai pha du lieu la tap cac matt

Model Creation: khai niem ve tao and hinh dan gian la tao ra met me hinh khai pha de lieu trong, gin giong nhu cach ma tao ra met bang meri

Moddel Training: can duqc goi la cach xti lY me hinh NO duqc clang de din ra thuat town khai pha de lieu de kham pha tri thee nher cac 4'p de lieu huan luyen Sau qua thrill hair luyen, cac matt duqc luu tre trong cac me hinh khai pha

Model Prediction: me hinh dv doan duqc cliing de ap dung co cac man me hinh khai pha di duqc huan luyen, de dv dok cac tap de lieu men img veri mai twang hqp meri

3.1.3 Data Mining Extensions to SQL (DMX)

a Dinh nghia:

DMX - Data Mining Extensions la met ngen nger truy van khai pha (Wien duct dinh nghia trong OLE DB climh cho khai pha de lieu DMX duqc thiet ke hau het cac

A11500 — Nguyen Dirc Hoang

Trang 33

ICHAI PHA Dg LIEU TRONG SQL SERVER 2012

Tren SQL Server 2012, ngoii viec sir dung cling cm SQL server data tool de khai phi du lieu mat cich tnic quan bang giao dien, to con co the sir dung DMX truy van tai he quin trj CSDL nay de lim to clang boa qui trinh xay dung mo hinh, huan luyen der lieu, du doin, truy van ra caythong tin tri thirc, hien thi kat qui tren giao dien ngtrai &mg

b Cic bulk khai phi du lieu sir dung neon ngit DMX:

Xay dung m8 hinh khai thic: tuang to nhu tao mat bang trong ca se di/ lieu quan Mat mo hinh khai thic gem:

- Cot dit lieu diu vao

- Cat dtr doin dugc

- Thuat town lien quan

Vi du mat doan lenh xay dtmg m8 hinh khai phi du lieu dung de" du doin kieu the thinh vien cua mat Ichich hang sir dung that town cay quyet dinh:

Create mining model MemberCard_prediction

CustumerlD long key,

Gender text discrete,

Income long continous,

MemberCard text discrete predict,

Purchase table(

ProductName text key,

Quantity long continous

Using Microsoft_Decision_Trees

Huan luyen mo hinh khai phi: trong buerc nay cic thuat town khai phi du lieu bit d'au phan tich cic der lieu diu vio Tity vio hieu qui cita tirng thuat town se cho thiy mei ttrcmg quan gift cic gii trt thuac firth

Doan ma l'enh DMX de luyen ma hinh:

Insert into MemberCard_prediction

(CustomerID,Gender,Age,Profession,Income,HouseOwner,MemberCard)

A11500 — Nguyen Dire Hoang

Trang 34

KHAI PHA Dv LIEU TRONG SQL SERVER 2012

OpenRowset(` sqloledb' :myserver': mylogin mypass ' ,` select

CustomerID,Gender,Age,Profession,Income,HouseOwner,MemberCard

From customers')

Du doan: De du doom chimg to can mot m6 hinh da duqc huan luyen va new

dataset.Sir dung cac hang du doin duqc djnh nghia trong DMX de dua ra du doin

Vi du down mA lent' DMX du doin:

c M6t se ham du bao dtrqc dish nghia:

A11500 — Nguyen Dirc Hoing

Trang 35

OWLS PISS Finis on Suit Cana

MCA

Predict lass 931

qt_ro

inelicravert kik Ws (gala:

Cori ohm :nand it

KHAI PHA DU LIEU TRONG SQL SERVER 2012

Oneidas than OirPYNteadPdh i.Cla.cD >al &Ski lain

Cin3 sailart

*afar Clanserekeilig kit Mitigidelprist

I ci2:ep ice

deliedtg clatta.or et lelikapidirrivet

Ns con ar Sank Gettemilipiehlteriat

Hs, ninny>) tedetkva ENS sin

rpicon ar kit Gets Is white SS Mgr Warn)) hldC hatanleini

elm rderco) peal baits Sind

Podietirdtaty Saiekt

maw •assi

lkictddiratet the tmeladvdiespielt MSS xotiallege Mit taped ✓SCe.lt So.Y :Midi WWI II IS Sod

-.Corwirn) wir Irr, SAS mhos

usitia '<mita km Ea

cn -sinned.)

:ash awl paid

sr Ira Sand Sat

:Ns Ire ife rid ol ta

sdecktei MI Mimi

Ira

at tar Sus

cos nfettarol

3.2 Cic thuat tom khai phi de lieu trong SQL Server 2012

Thuat toan khai that de lieu la met kg thuat de tao ra cac mo hinh khai that

tao ra met me hinh, met thuat toan tien phai phan tich thitt lap ciia du lieu, him

kiem cac mau d4c trung va xu hurling Thuat toan sau do sir dung nhtmg kit qui cup

viec phan tich nay de xac djnh cac tham se dm mo hinh khai that

MO hinh khai that ma met thuat toan tao ra c6 the có nhieu dang khac nhau, bao

g6m:

Viec thiet lap cac lust ma to lam each nao cac son pham duqc gom them lai

voi nhau thanh met thao

- Cay quyet djnh du down met khach hang cu the se mua met son pham hay

kh6ng

M6 hinh toan hoc du down viec mua ban

Thiet lap cac nhom mo to cac case trong dataset lien quan den nhau nhu the

nao

A11500 — Nguyen Dec Hoang

Trang 36

KHAI PHA Dir LIEU TRONG SQL SERVER 2012

Microsoft SQL Server Analysis Services cung cap nhieu thuit town cho ck giii phip khai thic du lieu cilia ban Cic thuit town nay li tip con cita tat ca cic thuit town

co the duqc clang cho viec khai chic du lieu Ban cling c6 the sir dung cic thuit town cita hang this ba than theo cic dic ti OLE DB for Data Mining

3.2.1 Microsoft Decion Trees

Thuit town Microsoft Decision Tree ha trq ca viec phan loci vi hai quy, vi tho rat tot cic mo hinh du doin Sir dung thuit town nay c6 the do doin ca ck thuec tinh rat rac vi lien toe

Trong viec xay dung mo hinh, thuit town nay se khio sit sv anh huerng cia mai thuoc tinh trong tip du lieu vi ket qui cilia thuoc tinh dv down Vi tiep den no sir dung

ck thuec tinh input (vii ck quan he ra rang) de tho thinh mot nhom phan hem gqi

cic node Khi met node mei duqc them vio mo hinh, met ciu tric cay se duqc thiet lip Node dinh ctia cay se inieu ti so phan tich (bang thong ke) cita cic thuec tinh dv doin thong qua cic matt Mai node them vio se duct to ra dtra tren so sip xep cic Huang cita thuec firth dv doin, de so sixth veri di lieu input NM met thuok tinh input duce coi la nguyen nhan cilia thuec tinh dv doin, met node meri se them vio me hinh

MO hinh tiep tuc phit trien cho den lite khong can thuec tinh nio, tho thinh met su

phan tich de cung cap met du ha° hoin chinh thong qua ck node da Mn tai MO hinh dui hoi tim kiem mot sir ket hqp giaa ck thuOc tinh vi truing dm no, nhim thiet lip Met su phin phei khong can ximg gicra the trithng trong thuOc tinh dkr doin Vi the cho phop du doin ket quA cua thuOc tinh du doin met cach tot nhit

3.2.2 Microsoft Clustering

Thuit town nay sir dung ky thuit lip de nhom ck ban ghi tir mot tip hqp du lieu vio met lien cung cling có dic diem gning nhau Sir dung lien cung nay c6 the khim phi dir lieu, tim hitu ve ck quan he da ton thi, ma cic quan he nay khong a ding tim duqc met each hqp 19 thong qua quan sat ngau nhien Them nfra, c6 the du doin tir the

mo hinh lien cung da duqc tho bed thuit town

cling met loci thirc an vi mua clung mot sin phim Day li met lien cung cua &I lieu, met lien cung khac c6 the bao gam riffling ngueri cling den mot nhi hang, cling mire lucmg, vi duqc di nghi a nu& ngoii hai lin trong ram Hay quan sat nth -mg lien cung nay duqc phan ph& ra sao? Ta co the hitt rb han so inh htremg cilia cic bin ghi trong

A11500 — Nguyen Dirc Doing

Trang 37

KHAI PHA LItU TRONG SQL SERVER 2012

mot tap dar lieu Cling nhu su anh huerng nay c6 anh huling gi den ket qua dm thuec tinh dv doin

3.2.3 Microsoft Naive Bayes

Thuat Man nay xay dung mo hinh khai thic nhanh hcrn cac thuat wan Ichic, phut

vu viec phan loci va dv doin NO tinh town khit Jiang co the xay ra trong mOi trtreing hqp cim thuec tinh dau vao input, gin cho mei truing met thuec tinh de co the dv down Moi trifling nay c6 the sau d6 duqc sir dung de dv doin ket qua cita thuec tinh

dv doin dva vao nhiing thuec tinh input da biet Thuat toil' nay chi he thy cac thuec tinh hoac la tin rac hoax la lien tic va cac thuec tinh dau vao nay dec lap veri nhau Thuat town nay cho to met me hinh khai phi don gian (co the coi la diem xuat phat ctia DataMining), beri vi hau het tit ca cac tinh loan sir dung trong khi thief lap mo hinh duqc sinh ra trong xir li cim khei (cube), ket qua duqc tra ve nhanh thong

3.2.4 Microsoft Sequence Clustering

Thuat town Sequence Clustering phin tich cac del tuqng du lieu co trinh tv, cac

du lieu nay bao gem met chuOi cac gia trj raj rac Thuimg thi thuec tinh trinh tv cim met chat anh teri met tap cac sty kien ctla met trat tv re rang Bing cach phan tich str chuyen tiep giiia cac tinh trang cua met chuOi, thuat toin ce the dv doin ttrcmg lai trong cac chueli c6 quan he nhau

Thuat than Sequence Clustering la sir pha ten giita thuat town chat va thuat toan lien cung Thuat town nhom tit ca cac sir kien phirc tap yeti cac thuec tinh trinh to vao met phan down dva vac, sv gieng nhau mia nhang chat nay MOt dac trtmg sir dung chuei sv kien cho thuat town nay la phan tich khach hang web cilia met Gong thong tin Met ding thong tin la mot tap cac ten mien lien ket nhu: tin ttic, thin tiet, gia Wen, mail, va the thao mei khach hang duqc lien ket veri met chucli cac click web tren cac ten mien nay

Thuat Man Sequence Clustering c6 the nhom cac khach hang web ve met hok nIti'eu nhOm dva tren kieu hanh deng cum he Nhang nhom nay co the duqc tryc quan hem, cung cap met ban chi tie[ de bier duqc muc dick sir dung trang web nay cita khach hang

3.2.5 Microsoft Time Series

Thu#t Man Time Series Mo ra nhang mo hinh duqc sir dung de dv dotin cac Bien

lieu theo tir OLAP va cac nguen MI lieu quan he

A11500 — Nguyen Dire Hoang

Trang 38

KHAI PHA DU LIEU TRONG SQL SERVER 2012

lieu qua khir trong 1 cube

Sir dung thuat toan Time Series do the chqn mot hoac nhieu bien de du doin (nhung cac bien phai la lien tuc) CO the c6 nhieu trueng hqp cho mai mo hinh Tap

cac tnrtmg hqp xac dinh vi tri cua met thorn, nhu la ngiy thing khi xem viec bin hang

thong qua vai thing hoc vai nam truerc

Mot twang hqp co the bao gem met tap cac bien (vi du nhu ban hang tai cac cira hang Ichic nhau) Thuat town nay co the sir dung sir tuong quan cua thay doi bien so

trong du doin ctia no

bin hang hien tai tai nhimg cira hang

3.2.6 Microsoft Association Rules

Th4't toan nay duqc thiet ke de sir dung phan tich gio hang thi twang (basket market) ten str giao dich cita khach hang Nher thult town phan tich lust ket hqp co the biet dtrqc nhcmg sin phim nao thuerng dtrqc bin ding yeti nhau va lam the nao met san pham dic Wet duqc ban cling veri nhemg san phim khic Vi du 5% so ichich mua laptop, chuet khong day ding v6i de tan nhiet va 90% cim ithimg khich hang nay da mua laptop, chuot khong day thi cling se mua de tan nhiet

Thuat toan phan tich lust ket hqp, thuat toan nay se xet mai cap thuec tinh/gia tri

la mot item Met Itemset la met tap hqp cac item trong 1 giao dich (transaction) don le.Thuat toan se quat qua cac tap dit lieu, tim kiem cac tap Itemset xuat hien trong nhieu giao dich Tham chieu Support se dinh nghia bao nhieu transaction ma itemset

se xui't hien tank khi no duqc go:pi la quan tong

{Gender="Male", Marital Status="Married", Age="30-35"}

Trong Itemset nay co cac Item: Gender=male; MaritalStatus =Married; Age=30-

A11500 — Nguyen Dirc Hang

Trang 39

KHAI pHA DC! LIEU TRONG SQL SERVER 2012

Mqt dac tinh quan tong nita cita phan tich tat ket hop d6 la Probability (xac sat) Xic suat cua quy tee ket hop A=>B duqc tinh town bang each sir dung Support cita itemset (A,B) chia cho Support cita itemset A Xic sat nay duqc goi la dq tin cay trong nhitng nghien ciru ctia khai phi du

3.2.7 Microsoft Neural Network

That town Neural Network tao cac m8 hinh khai thic fel h8i quy vi phin loaf bang each xay dung da lop perceptim cfra cac flown Citing nhu that toan cay quyet djnh, dua ra mei tinh twig cita thuOc tinh co the do doin That tan Neural Network tinh toan kha nang co the cita mei trang thai ce, the Gila thuOc tinh dau vao That toan Neural Network se xir 1$' tan the cac trtrerng hop So lap di lap tai so sinh the du (loan phan loaf cfra cac truerng hop vfri so phan loci ca cac truerng dA biet Sai se tir so phin loci ban diu (dm phep lap ban dAu) cita toan bo cac twang hqp duqc tra ve network va dtrqc sir dung de thay aM so thoc thi cita network cho cac phop lap ke theo,v.v co the sau do sir dung nheng kha nang nay de do doin ket qua cita cac thuOc tinh do doan, dua tren thuete tinh vac)

Mqt so khach biet chink gifra that town Neural Network va that town cay guy& djnh la cac lcien thirc xir li la nhi'mg tham so network ton uu nhim lam nhe !that cac loi

co the trong khi cay quyet djnh tach cac !at, moc dich de eve dal h6a th8ng tin co 10 That town nay he trq ca thuqc tinh raj rac va IS tic

3.2.8 Microsoft Linear Regression

Microsoft Linear Regression la met cau hinh co the cita that town Microsoft Decision Trees, thu duqc bang each vo hieu hew chia tach (cac tong thirc hqi quy town

bq duqc xay (long trong met nut gec duy nhat) That town nay he trq cac do down cho cac thuOc firth lien tic

3.2.9 Microsoft Logistic Regression

Microsoft Logistic Regression la mgt cau hinh co the cita that town Microsoft Neural Network, thu duqc bang each loci bo cac lop An That town nay he trq cac do doom cita ca hai thuqc tinh red rac va lien tic

3.3 Nguyen tic chon thu$t toin

SQL Server bao gam nhfrng that tan sau:

Al 1500 — Nguyen Dire Hoing

Trang 40

KHAI PHA DC! LIEU TRONG SQL SERVER 2012

Thuat town phin loci: du doin mot hok nhieu bien rai roc (khong lion tic), dua ten cac thu6c firth trong Lap de lieu (Microsoft Decision Trees Algorithm)

Thu* toan hoi quy: du doin moat hoc nhieu hien lien tic, kieu nhu nhiing lqi nhuan va nhffg ban that, dua ten cac thuetc tinh khic nhau cith tap hqp dit lieu (Microsoft Time Series Algorithm)

Thuat tan phin down: chia dii lieu thinh hai nhom, hok cac lien cung, hok cac danh mac c6 thuOc tinh gicang nhau (Microsoft Clustering Algorithm)

Thuat Wan ket hqp: tim nhiing su tuang quan gicra cac thuOc tinh khach nhau trong met tap hqp du lieu ling dung pile hien nhat dua loci thuat toan nay 11 tao ra cac lust ket hqp, do the dirk dimg trong market basket (Microft Association Algorithm)

Thuat Wan phan tich tien trinh: hang kit nhiing tien trinh thirerng xay ra hoc it xay ra trong der lieu (Microsoft Sequence Clustering Algorithm)

Chan moat thuat toan dimg de sir dung cho cac nghiep va Hong biet la mot nhiem via kh6 lchAn Khi to c6 the sir dung cac thuat toan khic nhau de thuc thi ding met nghiep vu, moi thuat Wan tao ra met ket qua khich nhau, va mot vai thuat Wan c6 the tao ra nhieu han met ket qua

down ma din la met ckh de giam s6 litmg cot trong dataset, bai vi cay quyet djnh co the xk dinh cac got ma khong anh hitmg den me hinh khai thic cuei ding

Ta cling kung phai sir dung vac thuat than doc lap trong giii phip khai thic dii lieu don gian, c6 the sir dung vai thuat toan de khao sat du lieu, va sau d6 sir dung cac thuat tan de du down kat qua reri roc dta ten du lieu nay

nhom dOng that, va sau d6 sir dung cac ket qua de tao ra mo hinh cay quyet Binh tot

han

chinh, va thuat Wan dua teen luat de dux thi viec khao sat thi throng

Cac mo hinh khai thic co the du doom cac gin tri, dua ra bang tom tit dii lieu, va tim ra su Prong quan An De giup cho lta chop thuat toan cho giai phip khai thic chi

A11500 — Nguyen Dirc Hoang

Ngày đăng: 05/05/2015, 14:23

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w