Adam Mrozek, Krzysztof Skabek 1998, "Rough sets in Economic applications" 5.. Zopounidis 1999 "Business failure prediction using rough sets" 6.. Boris Kovalerchuk, Evgenii Vityaev 1998,
Trang 1B ăGIÁOăD CăVÀă ÀOăT O IăH CăQU CăGIAăHÀăN I
—————————
NGUY NăVI TăHÀ
NG D NG Lụ THUY T T P THÔ
TRONG KHAI PH Á D LI U KINHăT ăậ TÀIăCHệNHă
LU NăV NăTH CăS
N gƠnh: Công ngh thông tin
Mƣăs :ă1.01.10
PGS.TSăH ăThu n
HÀ N I - 2007
Trang 2M C L C
M CăL C 2 DANHăM CăCÁCăT ăVI TăT T Error! Bookmark not defined DANHăM CăCÁCăB NG Error! Bookmark not defined
DAN HăM CăCÁCăHÌNHăV Error! Bookmark not defined
M ă U 3
C H NG 1 T NGăQUANăV ăLụăTHUY TăT PăTHÔăVÀă NGă
D NGăTRONGăPHÁTăHI NăTRIăTH C 5
1.1 T ng quan v khai phá d li u và phát hi n tri th c 5
1.2 M t s khái ni m c b n Error! Bookmark not defined 1.3 M t s v n đ KDD trong kinh t - tài chính Error! Bookmark not
defined
1.4 T ng k t ch ng 1 Error! Bookmark not defined
C H NG 2 PHÁTăHI NăTRIăTH CăVÀă NGăD NG TRONG CÁCăBÀIăTOÁNăKINHăT ă- TÀIăCHệNH Error! Bookmark not defined
2.1 R i r c hoá d li u s và chuy n chu i th i gian vào đ i t ng t p
thô Error! Bookmark not defined
(valued closeness relation) Error! Bookmark not defined
2.3 ng d ng t p thô trong đánh giá công ty Error! Bookmark not
defined
2.4 ánh giá chính sách tín d ng c a các ngân hàng Error! Bookmark
not defined
2.5 ánh giá chi n l c th tr ng Error! Bookmark not defined
2.6 Nh n xét và th o lu n m t s v n đ v s d ng lý thuy t t p thô
trong ng d ng kinh t - tài chính Error! Bookmark not defined 2.7 T ng k t ch ng 2 Error! Bookmark not defined
C H NG 3 PHÁTăHI NăTRIăTH CăQUAăL PăăTRÌNHăLOGICă QUYăN PăăVÀă NGăD NGăTRONGăPHÁTăHI NăCÁCăD UăHI Uă TÀIăCHệNHăB TăTH NG Error! Bookmark not defined 3.1 Gi i thi u Error! Bookmark not defined
3.2 L p trình logic qui n p (Inductive logic programming - LLP)[27]
Error! Bookmark not defined
3.3 Thu t toán FOIL và FOCL [20, 21] Error! Bookmark not defined 3.4 Thu t toán MMDR Error! Bookmark not defined
Bookmark not defined
Trang 33.6 T ng k t ch ng 3 Error! Bookmark not defined
K TăLU NăVÀăH NGăPHÁTăTRI N Error! Bookmark not defined TÀIăLI UăTHAMăKH O 11
Trang 4M U
Trong nh ng n m g n đây, m c dù đã có nhi u công c h tr đ c
l c cho vi c thu th p, l u tr , khai thác d li u, song v i s bùng n c a thông tin thu th p đ c đã v t ra ngoài kh n ng c a con ng i đ n m
b t và khai thác m t cách hi u qu , do v y trong nhi u tr ng h p các quy t đ nh đ c đ a ra không d a vào nh ng thông tin ho c d li u thu
th p đ c và ch y u d a vào nh n th c, suy đoán c a ng i ra quy t đ nh Bên c nh đó nh ng khi m khuy t c a các công c h tr đem l i cho ng i dùng tình tr ng các tri th c l y ra t l ng d li u l n l i thi u thông tin
T đó phát sinh yêu c u t nhiên là tìm ki m m t k thu t m i có các đ c tính thông minh và kh n ng t đ ng đ h tr con ng i ch t l c thông tin
h u ích trong m t kh i d li u l n
Xu t phát t nh ng th c ti n đó, m c dù lý thuy t t p thô đ c kh i
x ng t th p niên tám m i c a th k tr c, song ngày càng đ c ng
d ng m t cách r ng rãi trong vi c phát hi n tri th c, phân tích quy t đ nh, quy lu n quy n p và nh n d ng m u Nó d ng nh c ng đ c bi t quan
tr ng cho các h th ng tr giúp quy t đ nh và khai phá d li u Th c t đây
là m t cách ti p c n m i cho vi c phân tích d li u
T nh ng v n đ đó, n i dung đ tài này t p trung vào nh ng v n đ
c b n c a lý thuy t t p thô và nh ng ng d ng c a nó trong các bài toán kinh t , trong c s d li u th tr ng, và trong vi c tìm ki m các y u t b t
th ng trong l nh v c tài chính ngân hàng
M c ti êu nhi m v vƠ ph m vi nghiên c u
N m v ng c s lý thuy t, các khái ni m c b n, khái quát v các
ph ng pháp ng d ng lý thuy t t p thô trong khai phá d li u; nghiên c u
mô hình t p thô trong các bài toán kinh t : ph ng pháp, mô hình phân tích
l ng d li u l n trên c s lý thuy t t p thô, v i các ví d đi n hình c a
ng d ng lý thuy t t p thô đ gi i quy t các v n đ h tr quy t đ nh 3 l nh
Trang 5v c: đánh giá công ty, chính sách tài chính c a ngân hàng, chi n l c th
tr ng
Tìm hi u ng d ng mô hình t p thô trong nghiên c u th tr ng qua
c s d li u, khám phá các y u t , các đi m b t th ng trong l nh v c tài chính s d ng l p trình suy lu n quy n p
B c c lu n v n
hi n tri th c Trình bày chi ti t v lý thuy t t p thô bao g m: h th ng
thông tin, quan h không phân bi t đ c, x p x t p, rút g n và lõi c a t p
các thu c tính, hàm thành viên thô, đ chính xác và ch t l ng x p x Gi i
kinh t tài chính
vào các đ i t ng t p thô, chu i d n xu t, l a ch n các thu c tính đ qui
d ng trong 3 bài toán kinh t : đánh giá công ty, đánh giá chính sách tín
d ng và chi n l c th tr ng
- Ch ng 3 : T p trung tìm hi u ph ng pháp khai phá d li u quan
h d a trên l p trình logic qui n p (ILP) Gi i thi u mô hình khai phá d
li u quan h , lu t và logic c p 1, các thu t toán khai phá d li u quan h FOIL, FOCL, và thu t toán MMDR đ khám phá các y u t b t th ng
Trang 6Ch ng 1
1.1 T ng quan v khai ph á d li u vƠ phát hi n tri th c
1.1.1 Nh ng ti n b trong công ngh CSDL [2]
xã h i đ n ho t đ ng qu n lý Th p niên 1960 g n li n v i các s n ph m
đ u tiên c a h qu n tr t p, xu t hi n b nh ngoài, nh là b nh trong lý
đánh d u b ng vi c phân rõ, mô t nh ng d li u c a ch ng trình ng
ta có th truy nh p d li u, tìm đ n các b n ghi thay vì ph i đi theo c u trúc
nâng cao (quan h m r ng, h ng đ i t ng, suy di n, v.v.) và các h
và kho d li u (data warehouse), c s d li u đa ph ng ti n, c s d li u
web
1.1.2 D li u, Thông tin và Tri th c [14 ]
D li u (data): Chúng ta th ng thu th p và nhìn th y hàng ngày, ví
Trang 7 Th ông tin (Information): Là ―d li u‖ đã đ c lo i b các ph n d
li u‖ v i chi phí nh nh t
Tri th c (Knowledge) :
o Là s tích h p các ―thông tin‖ bao g m c quan h , là s đúng đàn đã đ c ki m nghi m, là s khám phá, s hi u bi t,
o Nói cách khác tri th c có th đ c xem nh d li u m c cao
1.1.3 Khai phá d li u và phát hi n tri th c
công ngh đi n t truy n th ng thì d li u, thông tin và tri th c hi n dang
là tiêu đi m c a m t l nh v c m i trong nghiên c u và ng d ng v phát
Phát hi n tri trong c s d li u th c (Knowledge discovery in
đ c, có giá tr , m i l , nhi u ti m n ng h u ích Khai phá d li u (Data
đ c, nh m tìm ra các d ng, các mô hình trong d li u [14, 20, 311] Nói
cách khác, m c tiêu c a phát hi n tri th c và khai phá d li u là tìm ra các
Trang 8d ng các mô hình quan tâm ch a đ ng trong c s d li u mà đ c che d u
gi a các t p l n d li u
các k thu t đ tìm ra các m u hình có tính chính quy (regularities) trong
t p d li u
phá d li u (data mining) đ c dùng quá quen thu c và ng i ta th ng
đ ng nh t v i thu t ng Knowledge Discovery in Databases (KDD)
Còn các nhà th ng kê thì xem khai phá d li u nh là m t qui trình
phân tích đ c thi t k đ th m dò m t l ng c c l n các d li u nh m
phát hi n ra các m u thích h p và/ho c các m i quan h mang tính h
cách áp d ng các m u đã phát hi n đ c cho các t p con m i c a d li u
Trang 9 Trích ch n d li u: ch n l c d li u t các ngu n d li u nh m ph c
hàng, hoá đ n,
Ti n x lý: làm s ch và làm giàu d li u Làm đ y đ d li u, x lý
th đ c l u nhi u b n ghi có th có nh ng tên, đ a ch khác nhau,
hàng đó Nh ng d li u khác nhau v khuôn d ng, đ n v đo l ng,
d ng chung
Bi n đ i d li u: th c hi n b c mã hoá d li u và ch y các ch ng
trình ti n ích nh m t đ ng hoá vi c k t xu t, bi n đ i và di chuy n
Khai phá d li u: th c hi n phân tích và ra quy t đ nh ây là b c
áp d ng các k thu t khai thác đ khai phá, trích ch n ra các m u tin,
Bi u di n tri th c và đánh giá: các k t qu khai thác đ c có th
Các d ng bi u di n th ng là ph i tr c quan, d i d ng đ ho , cây,
1.1.4 Các b c c a quá trình khai phá d li u
Các gi i thu t khai phá d li u th ng đ c miêu t nh nh ng
máy và th ng kê tr c đây, th ng thì b c đ u tiên là các gi i thu t n p
toàn b t p d li u vào trong b nh Khi chuy n sang các ng d ng công
th đáp ng đ c Không ch b i vì nó không th n p h t d li u vào trong
Trang 10b nh mà còn vì khó có th chi t xu t d li u ra các t p đ n gi n đ phân
tích đ c
Quá trình x lý khai phá d li u b t đ u b ng cách xác đ nh chính
xác v n đ c n gi i quy t Sau đó s xác đ nh các d li u liên quan dùng đ
xây d ng gi i pháp
thành d ng sao cho gi i thu t khai phá d li u có th hi u đ c V lý
trình r t khó kh n, g p ph i r t nhi u v ng m c nh : các d li u ph i
đ c sao ra nhi u b n (n u đ c chi t xu t vào các t p), qu n lý t p các
hình d li u thay đ i), v.v Có r t nhi u các gi i thu t khai phá d li u th c
d li u
quy, )
c đi m c a m u là ph i m i (ít nh t là đ i v i h th ng đó)
sánh các giá tr hi n t i v i các giá tr tr c đó ho c các giá tr mong
và di n gi i ph i d n đ n nh ng hành đ ng có ích nào đó đ c đánh giá b i
Trang 11khác nhau, d ng c a m u chi t xu t đ c c ng r t da d ng D ng c a m u
mô hình đ th , m ng Bayes, trí tu nhân t o, thu th p tri th c h chuyên
này có u th h n h n các ph ng pháp tr c đó, đem l i nhi u tri n v ng
1.1.5 Nhi m v chính c a khai phá d li u [14, 31]
Rõ ràng m c đích c a khai phá d li u là các tri th c chi t xu t s
đ c s d ng cho l i ích c nh tranh trên th ng tr ng và các l i ích trong
nghiên c u khoa h c
Do đó, ta có th coi m c đích chính c a khai phá d li u là mô t
phát hi n đ c nh m vào các m c đích này D đoán liên quan đ n vi c s
mô t d li u mà con ng i có th hi u đ c đ t đ c hai m c đích
này, nhi m v chính c a khai phá d li u bao g m nh sau [14, 31] Phân
l p (Classification):
- Phân l p là vi c t h c m t hàm, hàm này ánh x (hay phân lo i)
Weiss & Kulilowski 1992)
Trang 12
Ti ng Vi t
phá d li u, ng d ng trong bài toán d báo thông tin kinh t - xã h i"; T p
chí B u chính vi n thông
Ti ng Anh
4 Adam Mrozek, Krzysztof Skabek (1998), "Rough sets in Economic applications"
5 AI Dimitras, R.Slowinski, R.Susmaga, C Zopounidis (1999)
"Business failure prediction using rough sets"
6 Andrzej Skowron (2001), "Rough sets in KDD"
7 Boris Kovalerchuk, Evgenii Vityaev (2004), Chapter 1 - Data Mining for Financial Applications
8 Boris Kovalerchuk, Evgenii Vityaev (1998), "Inductive logic programming for financial regularities"
Methodology in Numeric Data Mining: Relational Techniques for Financial Applications"
10 Boris Kovalerchuk, Evgenii Vityaev (2000), Data mining In Finance Advances in Relational and Hybrid Methods - Kluwer Academic Publishers
11 D.Poel (1998), "Rough sets for Database marketing"
12 Dimitri Pissarenko (2002), Neural networks for financial time series prediction
Trang 1313 Francis E H, Lixiang Shen (2001), "Economic and Financial prediction using rough sets model"
14 Ho Tu Bao (1996) Introduction to Knowledge discovery and Data mining Institute of Information Technology, National Center for' Natural Science and Technology
Discretization of Numeric Attributes"
16 Hung Son Nguyen, Sinh Hoa Nguyen (1998), "Discretization Methods in Data Mining"
17 Jan C.Bioch and Viara Popova (2001), "Bankrupcy Prediction with rough sets"
18 Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej
19 Jerzy W.Grzymala-busse (2004), "Three Approachs to missing attributes values - A rough set Perspective"
20 J.K Baterzen (1996), An attempt to predict stock market data : a rough sets approach, Diploma thesis
21 Jitender S Deogun, "Data mining : Research Trends, Challenges, and Applications"
22 Lixiang Shen (2001), data mining techniques based on rough set theory, Doctoral Thesis, national university of singapore
23 Lixiang Shen, Han Tong Loh (2003), "Applying Rough sets to Market timing decisions"
Rough sets
25 M.J Segovia, J.A Gil, A.Hera, J.L Vilar, A.Sanchis (2003),
"Using Rough sets to Predict Insovenlcy of Spanish non-life insurance companies"
Trang 1426 M Zhang, J.T Yao(2001) , "A rough sets based approach to feature selection"
27 Nada Lavrac (2001), "Relational data mining and subgroup discovery"
28 Ning Zhong, Juzhen Dong (2001), "Using rough sets with heuristic for feature selection"
29 Ronald Braciman: "The Process of knowledge Discovery In Databases"
30 Stefan Zemke (2003), Data Mining for Prediction: Financial Series Case - Doctoral Thesis -The Royal Institute of Technology Department of Computer and Systems Sciences -December 2003
31 Usima N Fayyad, Gregory Piatetsky Shapno, Padhraic Smyth:
―From Data mining to Knowledge Discovery : An Overview"
32 Vijay V Raghavan, "State of Rough sets for Database Mining Appplications"
Universes"
34 Zdzislaw Pawlak (1995), "Rough sets Present state and further Prospects"
35 [DL92]: Reduct System, Inc: DataLogic/R reference Manual, Regina, Canada (1992)
36 [Sijach 93]:Sierpinska, M, Jacha: The company evaluation according to international standard, Wydawnnictwo Naukowe, Warszawa (1993)
37.[Skabek 96] Skabek, K.: Computer supporting credit decision The Master thesis, silesian Technical University, Gliwice (1996)
38.[Debski94] Debski,W.: Bank risk Bank i Kredyt 10 (1994)