1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế - tài chính

14 168 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 568,04 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Adam Mrozek, Krzysztof Skabek 1998, "Rough sets in Economic applications" 5.. Zopounidis 1999 "Business failure prediction using rough sets" 6.. Boris Kovalerchuk, Evgenii Vityaev 1998,

Trang 1

B ăGIÁOăD CăVÀă ÀOăT O IăH CăQU CăGIAăHÀăN I

—————————

NGUY NăVI TăHÀ

NG D NG Lụ THUY T T P THÔ

TRONG KHAI PH Á D LI U KINHăT ăậ TÀIăCHệNHă

LU NăV NăTH CăS

N gƠnh: Công ngh thông tin

Mƣăs :ă1.01.10

PGS.TSăH ăThu n

HÀ N I - 2007

Trang 2

M C L C

M CăL C 2 DANHăM CăCÁCăT ăVI TăT T Error! Bookmark not defined DANHăM CăCÁCăB NG Error! Bookmark not defined

DAN HăM CăCÁCăHÌNHăV Error! Bookmark not defined

M ă U 3

C H NG 1 T NGăQUANăV ăLụăTHUY TăT PăTHÔăVÀă NGă

D NGăTRONGăPHÁTăHI NăTRIăTH C 5

1.1 T ng quan v khai phá d li u và phát hi n tri th c 5

1.2 M t s khái ni m c b n Error! Bookmark not defined 1.3 M t s v n đ KDD trong kinh t - tài chính Error! Bookmark not

defined

1.4 T ng k t ch ng 1 Error! Bookmark not defined

C H NG 2 PHÁTăHI NăTRIăTH CăVÀă NGăD NG TRONG CÁCăBÀIăTOÁNăKINHăT ă- TÀIăCHệNH Error! Bookmark not defined

2.1 R i r c hoá d li u s và chuy n chu i th i gian vào đ i t ng t p

thô Error! Bookmark not defined

(valued closeness relation) Error! Bookmark not defined

2.3 ng d ng t p thô trong đánh giá công ty Error! Bookmark not

defined

2.4 ánh giá chính sách tín d ng c a các ngân hàng Error! Bookmark

not defined

2.5 ánh giá chi n l c th tr ng Error! Bookmark not defined

2.6 Nh n xét và th o lu n m t s v n đ v s d ng lý thuy t t p thô

trong ng d ng kinh t - tài chính Error! Bookmark not defined 2.7 T ng k t ch ng 2 Error! Bookmark not defined

C H NG 3 PHÁTăHI NăTRIăTH CăQUAăL PăăTRÌNHăLOGICă QUYăN PăăVÀă NGăD NGăTRONGăPHÁTăHI NăCÁCăD UăHI Uă TÀIăCHệNHăB TăTH NG Error! Bookmark not defined 3.1 Gi i thi u Error! Bookmark not defined

3.2 L p trình logic qui n p (Inductive logic programming - LLP)[27]

Error! Bookmark not defined

3.3 Thu t toán FOIL và FOCL [20, 21] Error! Bookmark not defined 3.4 Thu t toán MMDR Error! Bookmark not defined

Bookmark not defined

Trang 3

3.6 T ng k t ch ng 3 Error! Bookmark not defined

K TăLU NăVÀăH NGăPHÁTăTRI N Error! Bookmark not defined TÀIăLI UăTHAMăKH O 11

Trang 4

M U

Trong nh ng n m g n đây, m c dù đã có nhi u công c h tr đ c

l c cho vi c thu th p, l u tr , khai thác d li u, song v i s bùng n c a thông tin thu th p đ c đã v t ra ngoài kh n ng c a con ng i đ n m

b t và khai thác m t cách hi u qu , do v y trong nhi u tr ng h p các quy t đ nh đ c đ a ra không d a vào nh ng thông tin ho c d li u thu

th p đ c và ch y u d a vào nh n th c, suy đoán c a ng i ra quy t đ nh Bên c nh đó nh ng khi m khuy t c a các công c h tr đem l i cho ng i dùng tình tr ng các tri th c l y ra t l ng d li u l n l i thi u thông tin

T đó phát sinh yêu c u t nhiên là tìm ki m m t k thu t m i có các đ c tính thông minh và kh n ng t đ ng đ h tr con ng i ch t l c thông tin

h u ích trong m t kh i d li u l n

Xu t phát t nh ng th c ti n đó, m c dù lý thuy t t p thô đ c kh i

x ng t th p niên tám m i c a th k tr c, song ngày càng đ c ng

d ng m t cách r ng rãi trong vi c phát hi n tri th c, phân tích quy t đ nh, quy lu n quy n p và nh n d ng m u Nó d ng nh c ng đ c bi t quan

tr ng cho các h th ng tr giúp quy t đ nh và khai phá d li u Th c t đây

là m t cách ti p c n m i cho vi c phân tích d li u

T nh ng v n đ đó, n i dung đ tài này t p trung vào nh ng v n đ

c b n c a lý thuy t t p thô và nh ng ng d ng c a nó trong các bài toán kinh t , trong c s d li u th tr ng, và trong vi c tìm ki m các y u t b t

th ng trong l nh v c tài chính ngân hàng

M c ti êu nhi m v vƠ ph m vi nghiên c u

N m v ng c s lý thuy t, các khái ni m c b n, khái quát v các

ph ng pháp ng d ng lý thuy t t p thô trong khai phá d li u; nghiên c u

mô hình t p thô trong các bài toán kinh t : ph ng pháp, mô hình phân tích

l ng d li u l n trên c s lý thuy t t p thô, v i các ví d đi n hình c a

ng d ng lý thuy t t p thô đ gi i quy t các v n đ h tr quy t đ nh 3 l nh

Trang 5

v c: đánh giá công ty, chính sách tài chính c a ngân hàng, chi n l c th

tr ng

Tìm hi u ng d ng mô hình t p thô trong nghiên c u th tr ng qua

c s d li u, khám phá các y u t , các đi m b t th ng trong l nh v c tài chính s d ng l p trình suy lu n quy n p

B c c lu n v n

hi n tri th c Trình bày chi ti t v lý thuy t t p thô bao g m: h th ng

thông tin, quan h không phân bi t đ c, x p x t p, rút g n và lõi c a t p

các thu c tính, hàm thành viên thô, đ chính xác và ch t l ng x p x Gi i

kinh t tài chính

vào các đ i t ng t p thô, chu i d n xu t, l a ch n các thu c tính đ qui

d ng trong 3 bài toán kinh t : đánh giá công ty, đánh giá chính sách tín

d ng và chi n l c th tr ng

- Ch ng 3 : T p trung tìm hi u ph ng pháp khai phá d li u quan

h d a trên l p trình logic qui n p (ILP) Gi i thi u mô hình khai phá d

li u quan h , lu t và logic c p 1, các thu t toán khai phá d li u quan h FOIL, FOCL, và thu t toán MMDR đ khám phá các y u t b t th ng

Trang 6

Ch ng 1

1.1 T ng quan v khai ph á d li u vƠ phát hi n tri th c

1.1.1 Nh ng ti n b trong công ngh CSDL [2]

xã h i đ n ho t đ ng qu n lý Th p niên 1960 g n li n v i các s n ph m

đ u tiên c a h qu n tr t p, xu t hi n b nh ngoài, nh là b nh trong lý

đánh d u b ng vi c phân rõ, mô t nh ng d li u c a ch ng trình ng

ta có th truy nh p d li u, tìm đ n các b n ghi thay vì ph i đi theo c u trúc

nâng cao (quan h m r ng, h ng đ i t ng, suy di n, v.v.) và các h

và kho d li u (data warehouse), c s d li u đa ph ng ti n, c s d li u

web

1.1.2 D li u, Thông tin và Tri th c [14 ]

D li u (data): Chúng ta th ng thu th p và nhìn th y hàng ngày, ví

Trang 7

Th ông tin (Information): Là ―d li u‖ đã đ c lo i b các ph n d

li u‖ v i chi phí nh nh t

Tri th c (Knowledge) :

o Là s tích h p các ―thông tin‖ bao g m c quan h , là s đúng đàn đã đ c ki m nghi m, là s khám phá, s hi u bi t,

o Nói cách khác tri th c có th đ c xem nh d li u m c cao

1.1.3 Khai phá d li u và phát hi n tri th c

công ngh đi n t truy n th ng thì d li u, thông tin và tri th c hi n dang

là tiêu đi m c a m t l nh v c m i trong nghiên c u và ng d ng v phát

Phát hi n tri trong c s d li u th c (Knowledge discovery in

đ c, có giá tr , m i l , nhi u ti m n ng h u ích Khai phá d li u (Data

đ c, nh m tìm ra các d ng, các mô hình trong d li u [14, 20, 311] Nói

cách khác, m c tiêu c a phát hi n tri th c và khai phá d li u là tìm ra các

Trang 8

d ng các mô hình quan tâm ch a đ ng trong c s d li u mà đ c che d u

gi a các t p l n d li u

các k thu t đ tìm ra các m u hình có tính chính quy (regularities) trong

t p d li u

phá d li u (data mining) đ c dùng quá quen thu c và ng i ta th ng

đ ng nh t v i thu t ng Knowledge Discovery in Databases (KDD)

Còn các nhà th ng kê thì xem khai phá d li u nh là m t qui trình

phân tích đ c thi t k đ th m dò m t l ng c c l n các d li u nh m

phát hi n ra các m u thích h p và/ho c các m i quan h mang tính h

cách áp d ng các m u đã phát hi n đ c cho các t p con m i c a d li u

Trang 9

 Trích ch n d li u: ch n l c d li u t các ngu n d li u nh m ph c

hàng, hoá đ n,

 Ti n x lý: làm s ch và làm giàu d li u Làm đ y đ d li u, x lý

th đ c l u nhi u b n ghi có th có nh ng tên, đ a ch khác nhau,

hàng đó Nh ng d li u khác nhau v khuôn d ng, đ n v đo l ng,

d ng chung

 Bi n đ i d li u: th c hi n b c mã hoá d li u và ch y các ch ng

trình ti n ích nh m t đ ng hoá vi c k t xu t, bi n đ i và di chuy n

 Khai phá d li u: th c hi n phân tích và ra quy t đ nh ây là b c

áp d ng các k thu t khai thác đ khai phá, trích ch n ra các m u tin,

 Bi u di n tri th c và đánh giá: các k t qu khai thác đ c có th

Các d ng bi u di n th ng là ph i tr c quan, d i d ng đ ho , cây,

1.1.4 Các b c c a quá trình khai phá d li u

Các gi i thu t khai phá d li u th ng đ c miêu t nh nh ng

máy và th ng kê tr c đây, th ng thì b c đ u tiên là các gi i thu t n p

toàn b t p d li u vào trong b nh Khi chuy n sang các ng d ng công

th đáp ng đ c Không ch b i vì nó không th n p h t d li u vào trong

Trang 10

b nh mà còn vì khó có th chi t xu t d li u ra các t p đ n gi n đ phân

tích đ c

Quá trình x lý khai phá d li u b t đ u b ng cách xác đ nh chính

xác v n đ c n gi i quy t Sau đó s xác đ nh các d li u liên quan dùng đ

xây d ng gi i pháp

thành d ng sao cho gi i thu t khai phá d li u có th hi u đ c V lý

trình r t khó kh n, g p ph i r t nhi u v ng m c nh : các d li u ph i

đ c sao ra nhi u b n (n u đ c chi t xu t vào các t p), qu n lý t p các

hình d li u thay đ i), v.v Có r t nhi u các gi i thu t khai phá d li u th c

d li u

quy, )

c đi m c a m u là ph i m i (ít nh t là đ i v i h th ng đó)

sánh các giá tr hi n t i v i các giá tr tr c đó ho c các giá tr mong

và di n gi i ph i d n đ n nh ng hành đ ng có ích nào đó đ c đánh giá b i

Trang 11

khác nhau, d ng c a m u chi t xu t đ c c ng r t da d ng D ng c a m u

mô hình đ th , m ng Bayes, trí tu nhân t o, thu th p tri th c h chuyên

này có u th h n h n các ph ng pháp tr c đó, đem l i nhi u tri n v ng

1.1.5 Nhi m v chính c a khai phá d li u [14, 31]

Rõ ràng m c đích c a khai phá d li u là các tri th c chi t xu t s

đ c s d ng cho l i ích c nh tranh trên th ng tr ng và các l i ích trong

nghiên c u khoa h c

Do đó, ta có th coi m c đích chính c a khai phá d li u là mô t

phát hi n đ c nh m vào các m c đích này D đoán liên quan đ n vi c s

mô t d li u mà con ng i có th hi u đ c đ t đ c hai m c đích

này, nhi m v chính c a khai phá d li u bao g m nh sau [14, 31] Phân

l p (Classification):

- Phân l p là vi c t h c m t hàm, hàm này ánh x (hay phân lo i)

Weiss & Kulilowski 1992)

Trang 12

Ti ng Vi t

phá d li u, ng d ng trong bài toán d báo thông tin kinh t - xã h i"; T p

chí B u chính vi n thông

Ti ng Anh

4 Adam Mrozek, Krzysztof Skabek (1998), "Rough sets in Economic applications"

5 AI Dimitras, R.Slowinski, R.Susmaga, C Zopounidis (1999)

"Business failure prediction using rough sets"

6 Andrzej Skowron (2001), "Rough sets in KDD"

7 Boris Kovalerchuk, Evgenii Vityaev (2004), Chapter 1 - Data Mining for Financial Applications

8 Boris Kovalerchuk, Evgenii Vityaev (1998), "Inductive logic programming for financial regularities"

Methodology in Numeric Data Mining: Relational Techniques for Financial Applications"

10 Boris Kovalerchuk, Evgenii Vityaev (2000), Data mining In Finance Advances in Relational and Hybrid Methods - Kluwer Academic Publishers

11 D.Poel (1998), "Rough sets for Database marketing"

12 Dimitri Pissarenko (2002), Neural networks for financial time series prediction

Trang 13

13 Francis E H, Lixiang Shen (2001), "Economic and Financial prediction using rough sets model"

14 Ho Tu Bao (1996) Introduction to Knowledge discovery and Data mining Institute of Information Technology, National Center for' Natural Science and Technology

Discretization of Numeric Attributes"

16 Hung Son Nguyen, Sinh Hoa Nguyen (1998), "Discretization Methods in Data Mining"

17 Jan C.Bioch and Viara Popova (2001), "Bankrupcy Prediction with rough sets"

18 Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej

19 Jerzy W.Grzymala-busse (2004), "Three Approachs to missing attributes values - A rough set Perspective"

20 J.K Baterzen (1996), An attempt to predict stock market data : a rough sets approach, Diploma thesis

21 Jitender S Deogun, "Data mining : Research Trends, Challenges, and Applications"

22 Lixiang Shen (2001), data mining techniques based on rough set theory, Doctoral Thesis, national university of singapore

23 Lixiang Shen, Han Tong Loh (2003), "Applying Rough sets to Market timing decisions"

Rough sets

25 M.J Segovia, J.A Gil, A.Hera, J.L Vilar, A.Sanchis (2003),

"Using Rough sets to Predict Insovenlcy of Spanish non-life insurance companies"

Trang 14

26 M Zhang, J.T Yao(2001) , "A rough sets based approach to feature selection"

27 Nada Lavrac (2001), "Relational data mining and subgroup discovery"

28 Ning Zhong, Juzhen Dong (2001), "Using rough sets with heuristic for feature selection"

29 Ronald Braciman: "The Process of knowledge Discovery In Databases"

30 Stefan Zemke (2003), Data Mining for Prediction: Financial Series Case - Doctoral Thesis -The Royal Institute of Technology Department of Computer and Systems Sciences -December 2003

31 Usima N Fayyad, Gregory Piatetsky Shapno, Padhraic Smyth:

―From Data mining to Knowledge Discovery : An Overview"

32 Vijay V Raghavan, "State of Rough sets for Database Mining Appplications"

Universes"

34 Zdzislaw Pawlak (1995), "Rough sets Present state and further Prospects"

35 [DL92]: Reduct System, Inc: DataLogic/R reference Manual, Regina, Canada (1992)

36 [Sijach 93]:Sierpinska, M, Jacha: The company evaluation according to international standard, Wydawnnictwo Naukowe, Warszawa (1993)

37.[Skabek 96] Skabek, K.: Computer supporting credit decision The Master thesis, silesian Technical University, Gliwice (1996)

38.[Debski94] Debski,W.: Bank risk Bank i Kredyt 10 (1994)

Ngày đăng: 08/02/2017, 22:23

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w