Lựa chọn các kỹ thuật khai phá Chương 4: Công nghệ khai phá dữ liệu của hãng Oracle với phiên ban 9i release 2 4.. Đó k mục tiêu và nhiệm vụ cơ ban cua công nshệ khám phá tri thức tron«
Trang 1ĐAI HỌC QUỐC GIA HÀ NỘI KHOA CÒNG NGHÊ
Đ O À N N H Ậ T M I N H
NGHIÊN CỨU MỘT s ố PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
VÀ THIẾT KỂ, XÂY DỰNG ỨNG DỤNG KHAI PHÁ DỮ LIÊU
TRÊN KHO D ữ LIỆU KHÁCH HANG CỦA B ư u ĐIỆN TP HÀ NỒI
CHUYÊN N G ÀN H: CÔNG NGHỆ THÔ NG TIN
Trang 2M Ü C L Ü C
Chương l: So lược về xu hướng nghiên cứu và phát trien k lu ii phá dù liệu 6
h i ệ n n a y
Chương 2: Kho (lũ liệu và cõng nghệ khám phá tr i thức 8
thôn«
Trang 33.4 Các kv thuật khai phá dữ liệu
3.4.1 Cây quyết định
3.4.1.1 Một số khái niệm chính
3.4.1 2 Thuật toán Hunt
3.4.1 3 Thuạt toán 1133 Lặp 1*0 dổi
3.4.1 4 Thuật toán C4.5
3.4.1.5 Thuật toán rút 2 ọn các luật quyél định
3.4.1.6 Loại bỏ các luật khône cán thiết
3.4.2 Suy diễn và qui nạp
3.4.3 Phát hiện cấc luật kết hợp
3.4.4 Phân nhóm và phân loại
3.4.5 Mans neural
3.4.6 Gicii thuật di truyền
3.4.7 Lựa chọn các kỹ thuật khai phá
Chương 4:
Công nghệ khai phá dữ liệu của hãng Oracle với phiên ban 9i release 2
4 1 Các chức năng và đặc điểm mới:
4.3 Các chức năng chính của ODM
4.3.1 Phân loại
4.3.2 Phân nhóm
4.3.3 Luật kết hợp
4.3.4 Thuộc tính quan trọim
4.4 Các thuật toán khai phá dữ liệu của ODM
4.4.1 Thuật toán Adaptive Bayes Network
4.4.2 Giãi thuật Naive Baves
4.4.3 Bộ tìm kiếm mỏ hình (Model seeker)
4.5 Quá trình khai phá dữ liệu
4.6.2 Cấc thiết lập chức năng khai phá
4.6.3 Các thiết lập giả i t h u ậ t khai phá
4.6.4 Đặc trứng dữ liệu logic
4.6.5 Các thuộc tính khai phá
4.6.6 Chí đ ịn h kỹ ihuát sử thum d ữ liệu
4.6.7 Đòi tưựim mỏ hình khai phá
4.6.S Đối tượng kết qua khai phá
4.6.9 Ma (rận kiếm (ra
4 'S.10 A p e l l i n a ko I t|ii;i l\h;ii phá
31
32 32
35
41 47
53 54 55
64 64
65 66 67
6<s
68
69 70 70 71 72 72 74 74 74 74
75 75 75
76
76
Trang 44.7 C;.c LI i á trị thiếu và sự rời rạc 77
B ỉ i i t o á n k h a i p h á d ữ l i ệ u k h á c h l i à i i i ỉ ( l i c n t h o ạ i d i d ọ i i í » V i n a p h o i K '
Trang 5Phún m ơ đ a u :
Điểi đó có nũhĩa là từ các (lữ liêu sán có phai tìm ra những thôn SI tin tiểm an có giá rị mà trước đó chua được phát hiện, tìm ra nhũn« xu hướng phát triển và nhữrtỊ yếu tố tác ctộns lên chúiiũ.
Đó k mục tiêu và nhiệm vụ cơ ban cua công nshệ khám phá tri thức tron« cư sở
dữ lien, mà tron« đó kỹ thuật cho phép ta lấy được các tri thức chính là kỹ thuật khai }há dữ liệu (Data minina).
Phát liện tri thức tù' cơ sở dữ liệu là một quá trình có sứ dụns nhiều phương pháp
và ccng cụ Tin học nhưno vần là một quá trình mà trono đó con nu ười là Trunn tàm 4] Do đó nó khôns phái lù một hệ thố ne phàn tích tự động mà là một hệ thỏm bao tióm nhiéu hoạt cìộna tươns tác thường xuyèn siữa con nuười và cơ so'
dữ liệu, với su' hổ trợ của các cône cụ tin học.
Nếu phát hiện tri thức là toàn bộ quá trình triết xuất tri thức từ các cơ sớ dữ liệu thì khai phá (lũ' liệu là giai đoạn chú yêu cưa quá trình đó Khai phá dữ liệu là đế tìm ra các mau hình cổ ý nghĩa, phù hợp với nhiệm vụ khai phá đã xác định trước, chứ không phái là thốn« kè cíữ liệu.
Khai pha dữ liệu khừng tluiộc mộl nỵành côim nũhiệp nào nó sử dưng các kỹ thuật và thuật toán thông minh đê khai phá tri thức tiềm ẩn trong dữ liệu, đặc hiệt trons các lĩnh vực về tài chính V học viễn thông, báo hiếm, hànti khôn o Trong tương lai gíìn khai phá dữ liệu sẽ m ana lại nhiều lợi ích to lớn cho con naười nói chung và cho các lĩnh vực quan lý kinh doanh nói riênũ.
Trang 6C n o n ụ 1: So lu'o'c V C XU huoim imhiỏn cứu v à phát trien khai jjhá
clL lien jije n nav
Trong nhữim thap ky ũãn ctãv với sự phái trien mạnh mẽ cua côn li nsihệ diện lử
sự Hr dò'i cua các bộ nhớ có đun« lượn« lớn bộ xứ lý tốc độ cao cùn« với cúc các hệ thống mạng viễn thỏim người ta đã xav dime các hệ thonsz thôim tin nhăm tự độns hoá mọi hoạt độns kinh doanh và quan lý của mình Điều này đã tạc IM một đòn" dừ liệu tãne lên không nsừna v ì ngay từ các giao dịch đơn « i a n
nhất nhu' một cuộc gọi điện thoại, kiểm tra sức khoẻ sử dựng thé tín chins, v.v đểi được iỉhi vào trons máy lính Cho đến nay con số này đã trở nên khốn» lò4— J J J v_
bao gồm các cơ sớ dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes Ill'll trữ các chì lieu kinh doanh ví dụ nhơ dữ liệu thôns tin khách hàng, dữ liệu lịch sử các ma) dịch, dữ liệu hán harm, dữ liêu các tài khoán, các khoán vay, sử c ỉu n ũ vốn v.v Nhiều hệ quan Irị cơ sỏ'dữ liệu (CSDL) mạnh với các cỏ n s cụ phonsz p h ú và thu;m tiện đã iiiúp cho con nmrời khai Ihác có hiệu qua các nuuổn tài nmiyên dữ liệu.
Cùr.g với chức nail o khai thác có tính chất tác nghiệp, việc khai thác các CSDL phu; vụ các yêu cầu trợ giúp quyết định neày càn« có ý nghĩa quan trọns và là nhu cầu to lớn troiiii mọi lình vực hoạt động kinh doanh, quan lý Dữ liệu được thu Ihập \'à Ill'll trữ n í Z c t v càn Í2 nhiồu nhung n ill rời ra quyêt định troim quan lý kinh doanh lai cân nhũn« ihôna tin bố ích nhũn« “ tri thức” rút ra từ nhữngc? o 7 <— C-nguón dữ liệu đó hơn là chính những dữ liệu đó cho việc ra quyết định cua mình Các nhu cầu đó đã được biết đốn tù' láu nhưnsỉ mới thực sự hùng nổ lừ thập niên
nghiên cứu về tó chức các kho dữ liệu và kho thóng tin (dala warehouse, information warehouse), các hệ trợ Íiiíip quyết định, các phươnu pháp phát ỉiiộn
cua rãt nhiổu 11 ”ười ircn kli;ip các lình vực khác nhau nhu' các hệ co' sờ dữ liệu, [honi: kc t'hỈL'1 \u;ì( 1 h( >n í_! III) nh;m (liiiiLi hoc I n ; t \ Irí mộ n 1 1 ; 111 l;io.
Trang 7C T u ư H i i 2 : K h o d ư l i e u v à c ỏ n ụ n u l l e k h a m p h á t r i t h ứ c
2 1 k h o ( l ữ l i ệ u ỉ D n l a w n r e h o i i s e )
1.1.1 Ton» C]Lutn VC kho dữ lien
v ào íiiữa nhữne năm 80 IlWười ta bãt đáu dỏ cap don khái niệm kluinũ hoan” [han tích số liệu tác nshiộp Niiuyên nhân cua tình tran” này tươnũ đối kỳ la:
"ron 2 mỏi trườn a thừa thãi số liệu, nhà phàn tích khôn« thế tìm ra cho mình nôntỉ tin can thiết nhằm có ctirợc sự hiếu biết thâu dáo ve nhữns quá trình xáy
II xung quanh Tinh trạna số liệu quá chi tiết và khổng có được sự liên kết với nhau cùa các số liệu phan ánh các quá trình tirons đôi độc lập cua một thực thể là lý do trực tiếp dần đến sự khủns hoang này Tình trạiiíỊ thừa tỉiômị till, triâ t tri tlĩức dược John N uisbdt canil báo:"Chúiií> Ici chilly clùni 11'ẠÌp troiiíi
d ì liệu mà van đói tri thức." [4]
Vào cuối nhiìnỵ năm 90, íIImon đã để xướng một sự kết hợp của một số liiái p.iáp kỹ thuật và được đặt tên là Data YVarehoushins - kỹ thuật xay ilựini các kho (lữ liệu Data Warehouse hav DVV1I (kho dữ lieu) (tược (lịnh Iiíihìa nhu' một lập hợp các phương tiện cho phép hình tlunũ dữ liệu một cách tona the hướng đối tượng để giúp cho việc phan tích và ra quyết định.
tích trực tiếp trên dữ liệu cùa các hệ xứ lý íiiao dịch và khỏnỉi hiệu C]uá và do
đr khônii dược khuyên khích Thay vào đó dữ liệu từ một vài hệ XII' lý iiiao lác trưc tuyến (Online Transaction Processing - OLTP) được biến đổi và sau đó đua vào một nguồn dữ liệu duy nhất là DVVH Quá trình này ctươc iiọi là đua
do liêu vào DVVH ũổm các công đoan chính sau:
+ Làm sạch (Bo các dữ liệu khóim cán thiết hoặc quá chuvẽn duna)
+ Liên kết các số liệu (Tính trước số liệu lích ton” I run il bình )
+ Biến đổi dữ liệu: so liệu được hiên dõi llìành dạniỉ thích hợp lõ cluíc lại phù hợp với DWH
+ TÍCỈ 1 hop so liệu tù'các 11 Üuốn khác nhau.
+ Đonu hô ho;i so liệu ()' mộl thời (tiêm \;ii' dinh.
Trang 8Khoo> dữ I LI là mól lie tlioni! dữ liệu n h á m c h u á n hị đẽ XUY (lưi)íi hệ lio irợ
ctiKực thiốtvé hLi'ónÜ theo chứ đề man« các thuộc tính vổ Ihòi oịan vù hau nhu'
imiiyên tínoặc clạns tốna hợp phục vu cho các ứns dụns phát hiện tri thức \'à trự eĩúp qi/ết định.
Troing thàikV đầu định nshĩa DYVH tương đối đơn gián Đến hiện nay DVVH vần được hếu là tập hợp dữ liệu thoá mãn 4 điều kiện cơ ban:
Hướng lối tượng.
Nhiêm vu (hĩnh cứa DWH là phục vụ cho các hệ hỗ trợ quyét định Các dữ liệu co' sỏ' tong DVVH có thê được hiếu diễn dưới vài khuôn (lạnũ khác nhau nhàm đáp mg khônu chi các càu hỏi cho trước mà cho ca các càu hói chua xác định.
DWH có kí;h thước rất lớn vì nó chứa toàn bộ dữ liệu lịch sử Chính vì lý đo kích thước, dữ liệu trong DVV được phùn chia làm hai loại: tích cực và khõrm tích cực DVH chứa các dữ liệu tích hợp ờ nhiều mức.
Mức ngỉiyêi t ử ị mức t h ấ p n h ấ t ) chứa cốt lõi căn han nhất và là một snapshot (dữ liệu được ghi lại ớ một thời điếm) đú n 2 lúc cua dữ liệu Dữ liệu cìược LcSnti két theo các °iai đoạn thời tiian nhu' theo từníi mo', theo nứa imày theo nuày hoặc theo tCrn 2 tuần Mức theo tùìiiỉ giờ là xử lv phức tạp nhất.
và kôt hợp lại cho một mục đích kinh doanh cụ thè Điên hình là (.lữ liệu được lổn <2 kếl theo thời man nhu'tlico ìmày luán 2 luân hoặc một Ihánũ.
Mức tong ihc cun: T h o n ü l i l i được lổim k é t lại ()' m ứ c cao là nlnìnũ i h o i i i i im
được l ó m lá t và k ê t h ợ p t h e o m ó t IÝ cío n a o d o ra l c u l l i c Đ i ê n h ì n h la d ữ l i ệ u
Trang 9Mane các thuộc tính vé thời tiian: đãv là đặc diêm hết sức quan trọn í! cua kho
dữ liệu nhằm đáp ứnu các yêu cầu của siai đoạn khai phá dữ liệu Mỗi loại dữ liệu sẽ được tổ chức và lưu trữ và có gán nhãn thòi gian theo từng chư kỳ hoạt động nghiệp vụ.
Tính ổn định: Dữ liệu trorui kho đữ liệu háu như khòntỉ bị thay đối chú yêu đế phục vụ các yêu cáu truy vấn thôn» Ún dam báo tính bén vữntỉ vé mậl thì liệu tron” quá trình thu thập thôim tin.
Hướim chu đổ: Đay la thuộc lính căn ban cua kho dữ liệu vì trước khi phan tích ihict kê hẹ thoiiii phủi xác định rõ ràne mục tiòii nííhiệp VỊI (chu etc) cán (Jal được cua kho dử lícu Ví (lu Iilur ban (lau khi \ a \ ilựnii kho dữ liệu, ilnéi ké
Trang 10Kho cữ liệu được tạo ra nhằm đạt dược 2 yêu cầu chính là :
- Hỗ rợ quyết định
C á c r ạ i c t i ê u c h í n h :
- Tĩct hợp dữ liệu và siêu dữ liệu (metadata) từ nhiều nguồn khác nhau
và lìm giàu ciữ liệu.
- Cunỉ c á p dữ liệu và đ á p ứng hiệu quá cho c á c hệ hỗ trợ ra quyết định cun« cap tược các thòng tin (one hợp và chính xác theo các chú để mà nmròĩ sứ dụnt; quan tam.
Hình dưới đây mô ta vai trò cứa kho dữ liệu trong các hệ hỗ trợ quyết định:
Trang 11VC lìr các hệ thôn Lí (lue I;11> \ à lio;III li';m IKIIII IÌLM ',|| kho clữ I iỌu.
Trang 12Các c ô n il c i l c h u y ế n đ ó i c h u à n h ó a l à m s ạ c h và l à m i i i ì u i (lữ l i ệ u ctiín li \';ii irò t á n II I r m m c h u y ế n (.lữ l i e u
k h o c h ứ a m e t a d a t a ( r e p o s i t o r y ) : Ill'll t r ữ c á c t h ò n ũ t i l l d i n h n iz h îa vẽ i h ì m h phán \ ’à đ ố i u r ợ i m c u a k h o d ữ l i ệ u
I
c á c c o n g c u D s s
JEÏ1Các c o n g c u OI AP
Trang 13- X á v d ự n<2 c á c hệ k h á m p h á t r i t h ứ c p h ụ c v ụ t r ợ Líiup q u v ê l đ ị n h I r o i m c á c lĩn h v ự c : c h i ê n lư ợ c k i n h đ o a n h - t i ố p t h ị d ầ u t i r v à p h á i t r i e n m ạ n í i I u ì V l p h á t
tr ie n d ị c h v ụ a iá t r ị ° i a tă n e
2.1. Cong nghệ k h á m p h á tri thức (KDD)
2.2 L T ổ n g q u a n vé K D D
H.U11Z n g h ì n n ă m n a y c á c v ấ n d ê v ề t ô c h ứ c v à k h a i t h á c d ừ l i ệ u là v ấ n d ê m à con n g ư ờ i p h a i s i ả i q u y ế t Đ e n n a y v â n đ ề n à y v ầ n c h ư a e i a i q u y ế t đ ư ợ c t r i ệ t dê
C á ; c h u y ê n g ia t r o n g c á c l ĩ n h v ự c k h á c n h a u t r o n s q u á t r ì n h h o ạ t đ ộ n g c ủ a m ì n h
t h i t h ậ p đ ư ợ c m ộ t k h ô i lư ợ n o k i ế n t h ứ c k h ô n s l ô n h ư n g t ô c h ứ c c ơ s ơ d ừ l i ệ u đ ó
th à n h m ộ t h ệ t h ố n s đ ê p h â n t í c h đ ư a r a n h ữ n s t h ô n g t i n c ầ n t h i ế t t r ê n c ơ sỏ' d ữ liệu đ ã đ ư ợ c t ậ p h ợ p là m ộ t v â n đ ề r â t p h ứ c t ạ p
J o h n N c u m a l th ỉ số l ư ợ n ũ n e u n ll c u a m ộ t n s u 'ó 'i la 1 0: " b i t s m ặ c d ù c h ú n g ta
k l i ô n u th ê s ư đ ụ n » h ô t s ô l ư ợ n2 n à v M ộ t sò n h à b á c h ọ c dã m ô p h o n ũ c á c h à n h
v i m ậ n d ạ n « c u a n ã o b ộ ( v í d ụ m ạ n u 1 Ỉ D p l i c l d ) c h o ta k h a n ă n « n h ậ n d ạ i i í i
ILIOTU tự' n l u r n ã o n m r ó 'i C a e m à u đà đ i ạ r c h u â n l u \ ện ele n h ậ n c lạ n u sè k í c h
t h í c h ()' m ộ t v i i n y dã d ư ợ c x á c đ ị n h t r ư ớ c N üU 'ó'i ta dà t í n h cliro'c r ă n u n ê u m ộ t hộ
t h ũ i ụ clu'o’c l ỉ i i c t lậ p tù' 10 N c u r a ỉ i h i u h i n h ậ n tlin ic 5 I ( ) IX m ầ u k h á c n h a u
Trang 14b ả n L sô l i r ợ n u N e u r a l ỈOíiy c ũ n u c h í n h la s ô lư ợ n <2 m ầ n l ó n n h â t m à c o n
c á c p h i r o ' i m t i ệ n tự d ộ n u M ụ c ci ích c u a p h á t h i ệ n t r i t h ứ c \ à k h a i p h á d ữ l i ộ i i
n h i m u \ àn c o n bị e h e k l u i à l ho'i hànti n ú i d ữ l i ệ u
Trang 15K h á n p h á tri t h ứ c n h a n h c h ó n s p h ;il t l i ê n c ù n i i \ <V| n h i ể u l ã n h MIC k h á c n l u r : co'
s ớ đ ữ l i ệ u i h m i ü kõ i h õ i m t i n h ọ c m á y t r í c h rú I II I t h ứ c h ữ u íc h lù' n h ữ i i ụ tậ p
h ợ p 1(11 d ữ l i ệ u , l í n h t o á n s o n i i s o n t i \'à h i ệ u n ã n i i c a o t h u n h ạ n i n i h ú v c h o nhữnL>hẹ t h ô n ti c h u y ê n i i i a và tr ự c q u a n h ó a d ữ l i ệ u C á c l ã n h v ự c n ù v đ ê u c ó
Trang 16t h ô n g t i n v ề sá n x u à t v ê v ậ n h à n h và c á c k h a n ă n2 t ô i ưu c ũ n u n h ư c á c
g ia i p h á p c h u v è u dê cai t i ê n c á c q u i t r i n h v a e ia i q u v ê l c á c SỤ' cô
• C h í c ó i n ộ l l ư ọ n a k h a n h ó ( t h ô n u i h i r ừ i m la \ a o k h o u n u 5"i>dẽn l()"<>) d ữ liệ u d ã d ư ợ c t l u i t h ậ p l u ô n d ư ợ c p h â n l í c h
LO
Trang 17• C a e di' l i ệ u c ó th e c h i r a h a o siiờ tlu'çyc p h â n t í c h v ầ n t i ê p tụ c d ư ọ c th u
Trang 18[ 9 ] B ư ớ c t h ứ n h à t là t ì m h i ê u lĩ n h \ LIC irru í d ụ n u \ à h ìn h t h à n h b à i to á n B ư ớ c
n à \ l ì I'll n e là m ộ i d i e u t i ê n q u v ê i c h o \ iộc r ú t ra đ ư ợ c c á c tr i t h ứ c h ữ u íc h và chc v iệ c c h ọ n c á c phu'OTiü p h á p k h a i ph á d ữ l i ệ u t h í c h h ợ p t r o n u b ư ớ c ha sao
c h c p h ù h ọ p v ớ i m ụ c đ í c h ứ n e d ụ i m v à b a n c h â t c u a d ữ liệ u
B ư ớc t h ứ h a i la t h u t h ậ p va x ứ K th ô h a y c ò n g ọ i là t i ề n x ứ lv d ữ l i ệ u n h ă m lo ạ i
b o n h iề u h o ặ c c á c d ị d ạ n a XU' 1Ý v i ệ c t h i ê u d ừ l i ệ u , t i ê n h à n h c á c p h é p b i ê n đ ô i (n ế i cần t h i ê t ) v à r ú t g ọ n d ừ liệ u B ư ớ c n à \ t h ư ờ n « c h i ê m h â u h ê t t h ờ i S2 i a n c â n
Trang 223 1 T ü í i ü q u a n ve k l i a i p h a d ữ IĨC‘11
3 1 1 K h a i p h á d ữ l i ê u là m ộ t b ư ớ c t r o n » q u i t r ì n h p h á t h i ệ n t r i t h ứ c e ô m c ó các :huật ¡oán k h a i p h á d ừ l i ệ u c h u v ê n d ù n o d ư ó i m ộ t sô q u i d ị n h v é h i ệ u q u a :ín h toá n c h â p n h ậ n đ ư ợ c d ê t i m ra c ác m â u h o ặ c c á c m ỏ h ì n h t r o n g d ữ liệ u
và sư d ụ n e c h ú r m đ ê t i m ra c á c m a u đ á n ti q u a n t â m s a u d ỏ dụ' đ o á n d ư ợ c c á c
m ầ u m ớ i
C á c nh à t h ò n u k ê th ì x e m k h a i p h á d ữ l i ệ u n h ư la m ộ t q u i t r ì n h p h à n tíc h
đư ợ c t h i ê t k ẻ d ê t h ă m d ò m ộ t l ư ợ n a c ự c lớ n c á c d ừ l i ệ u n h ă m p h á t h i ệ n ra các m a u t h í c h h ợ p v à / h o ặ c c á c m ô i q u a n hệ m a n a t í n h hộ t h ô n ạ u iữ a c á c
3 1.3 C á c t h à n h p h á n c u a MUÚ n i n h k h a i nh á d ữ l i e u :
m á ) l í n h D ữ l i ê u c ó ih é c o n h i c u k h u ô n clan*:, i l u i ộ c I i h i c u c o ' so'(.lữ l i ệ u k h á c
n h a u h ;io ũ ổ m :
• C;k (lữ liệu xu' lv IUOI1Ü liic nhu' (lữ liệu h;in ỈKÌiìíi ui;í c;I ké loiin
'Chươi u 3: Khai phá dữ jjcu
Trang 23ph.1t h i ệ n , h o ặ c c ó t h ê đ ư ợ c h ọ c N ó i c á c h k h á c , t r i t h ứ c c ó th ê đ ư ợ c c o i là các d ữ l i ệ u c ó đ ộ t r ừ u t ư ợ n g v à t ô c h ứ c c a o
Trang 24T a c a n p h ili quvC't đ ị n h (lựa (re n CO'so' n h ữ n ” h i c u bíêt ve n h ữ n t ỉ c h i ê u c a o và
In nu l i r o ì m c o n c • 11c *: ười V í d u tỉa số n h ỡ n ” n u ười m à ta n h ì n t h ã \ h o ã c h ic t V- V* „tới m à c a o l m 7 8 vù c á n n ặ n " <S5 k<2 cléu là đ à n ò n í i Bơi v ậ y c ỏ th ẽ c h o r ã i i ũ
m ó t n u ười k h ô n « b i ế t c h i ề u c a o và t r ọ n « l ư ợ n ” m à t h u ộ c c ù n e sự p h à n lo a i
d ó th ì c ũ r m là đ à n ô n a
T u y n h i ê n c á n p h a i lư u ý r ã n a tr i th ứ c k h ô n « c h i là n h ữ n a 21 m à ta c ó th ê phan l o ạ i đ ư ợ c m à c ò n là ca n h ũ n ” tỉ ì m à ta k h ô n « t h ế p h à n l o ạ i đ u ự c dưa trên d ữ l i ệ u c ó sá n H á u nhu ' m ọ i n g ư ờ i đ ề u c h o r ă n « k h ô n s c ó c á c h n à o c ó thê p h à n lo ạ i tr ẻ e m d ự a t r ê n c ơ sớ c h í đ o n g i a n về c h i ề u c a o và t r ọ n g lư ợ n g
H o ặ c , t i i a i h i ẽ ì m ỏ i cá n h a n đ ò n tù m ộ t Li¡a d i n h k h á c n h a u , l i l i nhữiiLi Líiii
c íìn h n à o là Iihữnii k h á c h h ñ n ü ln'o'nü lai ( l o i \ (V| Iihữiii2 c a t a l o ũ ( lõ che vi và
Trang 25’"Liệu c ó n ê n m õ t íiu'i t h ư C|Lia ctu'ô'nü h im đ i ê n I(Vi h a i h a v tớ i cá b ó n ü ia
dì il h / " là m ô i C| Il \ cl đ ị n h k i n h d o a n h c â n x e m XÓI v à p h á i dư a l i ê n d ò t i n
cậ CII.I m ỏ i tr ư ờ n SI h o p
3 1.5 D ư b a o d ữ Ị_ịẽu
D i háo d ữ l i ệ u là m ộ t k i ê u d ự đ o á n m à l à m v i ệ c v ớ i c á c c o n s ố đ ê n h ũ n « c á u tra lờ i đ ặ c b i ệ t c h ứ k h ô n ” p h a i c â u trá lờ i m a n t i t í n h x á c th ự c T r o n o th u ậ t
n s ĩ k \ t h u â t dll' b á o là v i ê c d l l ' đ o á n n h ù 'n a a iá t r i t r o n o m o t c h u ỗ i l i ê n t i ế p »— «— - *— I
các giá trị trons một cứa sổ thời aian.
B ớ vậy, n h ũ n g d ự b á o c ó th ê đ ư a ra n h ữ n ơ g i á t r ị m à v ầ n c h u a x u ấ t h i ê n
t r o i s dữ l i ệ u , t r o n g k h i p h ư ư r m p h á p p h â n l o a i th ì c h i g i ớ i h ạ n t r o n g n h ữ n í ì lớp đã có d ữ l i ệ u t r ư ớ c đ ó
Trang 27Tim nhập
-►
Hình 3.1 M ột tập d ừ liệu đon gian vói hai lóp
Hình 3.2 Các đ u ò n g biên phân lóp phi tuyến vê nọ ngân hàng
3.3.2 Hoi (-ỊU 1 (dư báo) dữ licu
Hôi qui là tìm ra một hàm dè ánh \ ạ một dôi tượim dừ liệu thành một uia trị thực cil cl mộl bien dụ' h;ì(> I lình (ì cho kci c| LIU cua mội phép hôi qui tiivcn linh
Trang 28dơn ui;in tronu dó tônu sô 11 Ọ' dưọ'0 xáp XI băn li một hãm tuyên tính cua "tlui nhập" I )â\ la một xâp XI khá thô hơi vi uiừa hai bien chI có một qmm hệ \ cu.
Trang 29thuộc một cách cục hộ vào một hiên khác, và mức thứ hai được LÌỌi là mức định lirợnũ cua mô hình \ac dịnh mức độ cua các phụ ihuộc ihõnti qua một tiling bậc bănti sô nao dó.
Trang 30T ậ p r u n ” v à o k h a i th á c n h ữ n i i i h a y d ổ i đ á n n k ê n h a i iro n s ’ d ữ l i ệ u từ c á c m á t r ị
c h u â i h o ặ c clil'o'c d o trư ớ c đ ó
R õ l'ànü là ta t h ã v n il l i n e p h il'o 'n s p h á p k h á c n h a u n à y y ê u c á u s ố l ư ợ n¡2 VÌI các dans, h ỏ n « t i n rất k h á c n h a u nõ n c h i ì n u th ư ờ n « a n h h irớ n « ctẽìi v i ệ c t h i ế t k ố và
b ị h ọ c q u á v à l à m g i á m k h a n a n t i d ự đ o á n c á c đ ừ l i ệ u c h ư a b iế t H ơ n nữa vice l ì m k i ê m sẽ c à n « iro' n ô n p h ứ c l ạ p h ơ n và v i ệ c ũ iá t h í c h m ô h ì n h c ũ 1111
k h ó k h ă n hơ n
• Đ á n h a i á m ô h ì n h : đ á n h g i á m ộ t m ầ u c ó t h ê đáp ứ n g các t i ê n c h u a n c u a q u a
t r ì n h p h á t h i ê n t r i I h ứ c h a y k h ò i i ũ V i ệ c đ á n h HÍá đ ộ c h í n h x á c d ự đ o á n cỉiici trên đ á n h ỵ i a c h é o ( c r o s s v a l i d a t i o n ) Đ a n h m á c h à i lư ợ n u l i ê n q u a n đ ố n đ ộ
c h i n h x á c d ự đ o á n , đ ộ m ớ i k h a n ã n s sứ d ụ n g và k h a n a n o hiếu cìirợc m ô
h ì n h C a h a i c h lù m t h ố i m k è và c h u a n L o i i i c d ổ u c ó th ế đ ư ợ c sứ đ u n a đê
đ á n h g i á m ỏ h ì n h
c h u a n đ á n h u iá m ô h ì n h \cVi c á c d ữ l i ệ u q u a n sát đư ợ c v ớ i m o t m i ê u ta m ó
h ìn h đ ã đ ị n h
• F in i k i ê m m ô h ì n h : T ì m k i ê m m ô h ì n h x a y l'il ü i o n ü n h ư m ộ t v ò n « l ặ p q u a
p h ư ơ n ũ p h á p f i n i k i c m l h a m so: m i c u la m õ h ] n t l hi i h a y d o i l a o nil'll m ọ t h ọ
c á c m ô h ì n h C’;íc p l n ĩ ó n i i p h á p l u n k i c m m ò h ì n h l l i u o n e s ư c ỉ u i m c ;íc k v
Trang 31ih lili tìm kiêm khám phá (heunsiic) VI kích thước khôn” íiian các mõ hình có lh_• ihưonti neăn can c;íc ùm kiêm tòn” thè.
Sau day là phân trìn h bày vê mọt so kỹ thuật khai phá dừ liẹu
Một cây quyết định là một càu trúc hình cây tron2 dó:
♦ Mỏi đinh trong (đỉnh cớ thê khai triển được) hiểu Ihị cho mội phép thư đối với một thuộc tính.
♦ Mỗi nhánh biểu thị cho một kết quá cua phép thử.
♦ Các dinh lá (các đinh khôn» khai triển được) biêu thị các lớp hoặc các phân
hổ lớp.
♦ Đinh trên c ù n s t r o n o m ộ i c â y đ ư ợ c g ọ i là í!ố c
Việc sinh câv quyết định hao gồm hai iiiai đoạn:
♦ Xây đụn tỉ câv
• Tại thời điếm khới đau I ; ì i cá các U I (case) (lữ liệu học (.leu 1 KI 111 tụi iiõc.
ch< >n.
.'2
Trang 33\
Thi đấu thi đấu
Khôn
g thi
Thi đâu
Không thi đấu
V C a y p h â n I ) I C ( I Y p / i t / u / f J¡) i n i n u ( ) ( (ì Y phún lớp ciiói C Ù I 1 Ï !
Trang 34B a im 3.4 T h õ iiíí (¡II phan 1)0 lóp cua th u ỘC’ tín h Q u a n ” can il
lhin>3.4 cho tháy ihõnií tin phan lóp cùa Ihuộc tính Ụuaiiíi canh Đoi vo '1 moi
ihiiu: líiil lien Inc chiinũ 1.1 pluii XÓI plicp IÍIIÍ nhi phan (.loi MV| lili Lít c;ic nia ||'I
Trang 35khác nhau cua thuóc tính Bdng 3.? chi ra ihong tin phán lóp cua ihuóc 11nh Dó
Giá tri thuóc tính
Lóp Phén tluí nhi nlian
Bang 3.5 T hóng tin phán bó lóp cua thuóc tính Do am
Trang 38' | 4 + ị - | ) C ò n (llói với t h u ộ c l í n h N h i ệ t (tô la sẽ c h i a I h ì m h 3 m ứ c c á c ! i ũ à \ c ó
Trang 39nhiệt đ ộ <2 I" i l l rọ: iìọi là Lanh ( 4 I i í ỉ à y ) các I 1 ÜÙV C('ì nhiệt đ ô > = 2 I 1 (len < 21"
được iiọi là (1111 ( 6nuàv) và còn lại là nhũìm nuav có nhiệt đó >= 27" được íiọi là
Trang 40TÙ' üiá trị cua E n t r o p y G a i n , ta th ấ y Đ ó ấ m là t h u ộ c tín h lót Iih ã ì c h o d in h n ăm
dưới n h á n h N ắ n u cua t h u ộ c lín h Q iia n ü c a n il
T iế p lụ c quá t r i n h trên c h o tâ l ca các d i n h và sẽ d i m ” k h i k h ô r m c ò n đ in h nào c ó
thế k h a i trie n được nữa C â y kô i q u á sẽ c ó clạne nhu' p hà n c ) c u a H ì n h 3.5
Đ ố i /ó'i m ỏ i t h u ộ c tín h rời rạc c ln ĩ im ta p h a i x ó t m ộ t p h é p Ih ử vớ i lát cá các üiü
trị k i á c n ha u c ủ a nó C ò n đ ô i với m ỗ i t h u ộ c tí n h liê n t ụ c ta pha i xét các p h é p
th ử l i l i p h à n c h o m ọ i má trị phan b iệ t cu a t h u ộ c l í n h n à y Đ ê th u th ậ p E n t r o p y
g a in cứa tất cá các p h é p th ứ n h ị phân n à y m ộ t c á c h hữu h iệ u thì tậ p d ữ liệ u t h u ộ c
về đinh đ a n g x é t p ha i được p h â n lo ạ i th e o c á c si á trị c ủ a t h u ộ c t í n h liê n tục và
E n tro p y g a in c ủ a p h é p cát n h ị phàn dựa irè n m ỗ i m á trị p h â n h iệ t c u a l l i u ộ c tín h
này cược tín h toán hãn Si m ộ t lán d u y ệ t các (lữ liệ u đã đư ợc p h á n lo ạ i Ọ u ;í ( li n h
l à y tirợ c thự c h iệ n đ ố i với m ọ i th u ộ c t í n h Ilẽ n tục
Thuự toá n x â y (Ỉir/ÌÍỊ cây theo C4.5 Ị7|:
3 i a SI' chim o ta có tập m a n i tro nu đó m ỗ i m ầ u đ ư ợ c m ô la hãn Lí m t h u ộ c tính
Sô l i ợ n í i m â u tr o n li lậ p I tlư ự c b iê u i li o n b ă n ũ ( I ) I h LIỘC lí n h d îm e dô phàn:h k i n ; ì u clirợc b iê u thị h ñ n LI 11ã\ các uicì trị ( ¡ ( ( ' H.ii lo à n cua L in in g l;i
GainRcưio{ s A ) = G a in ( S Ẩ )
S p ilt I n f o r m a t i o n s A )