MỞ ĐẦU Mục đích của luận án này là nghiên cứu tổng quan về khai thác dữ liệu, nghiên cứu một số thuật toán khai thác luật kết hợp trong đó đi sâu vào nghiên cứu, thử nghiệm ứng dụng vào
Trang 1TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2012
Trang 2MỞ ĐẦU
Mục đích của luận án này là nghiên cứu tổng quan
về khai thác dữ liệu, nghiên cứu một số thuật toán khai thác luật kết hợp trong đó đi sâu vào nghiên cứu, thử nghiệm ứng dụng vào phân tích tài chính ngân hàng, giúp chuyên gia có được những thông tin có tính chất qui luật, trợ giúp quyết định hiệu quả
Nội dung luận văn được chia thành 3 chương: Chương 1: Tổng quan về hoạt động kinh doanh của ngân hàng thương mại: Giới thiệu tổng quan về hoạt động của ngân hàng, các chức năng của ngân hàng thương mại; Những quy chế đặc thù đối với hoạt động ngân hàng; Tìm hiểu bảng cân đối kế toán ngân hàng và các chỉ số tài chính
Chương 2: Cơ sở lý thuyết về khai thác dữ liệu: Tổ chức và khai thác dữ liệu truyền thống; khai thác dữ liệu
và quá trình phát hiện tri thức, các dạng dữ liệu có thể khai thác dữ liệu, nhiệm vụ của khai thác dữ liệu, các phương pháp khai thác dữ liệu
Chương 3: Nghiên cứu luật kết hợp: Trong chương này đi sâu vào nghiên cứu luật kết hợp nhị phân
Trang 3Chương 1: TỔNG QUAN VỀ HOẠT ĐỘNG KINH DOANH CỦA NGÂN HÀNG THƯƠNG MẠI
1.1 Kinh doanh ngân hàng – một loại hình kinh doanh đặc biệt
1.1.1 Ngân hàng - một trung gian tài chính
Để hiểu được chức năng đặc biệt của ngân hàng trong nền kinh tế, chúng ta hãy hình dung một thế giới giản đơn trong đó không tồn tại hoạt động của hệ thống ngân hàng Trong một thế giới như vậy, những khoản tiết kiệm của dân chúng chỉ có thể được sử dụng hoặc là dưới dạng tiền mặt; hoặc là dưới dạng đầu tư chứng khoán vào các công ty Nói một cách khái quát, các công ty phát hành chứng khoán để đầu tư vào các tài sản thực, như nhà xưởng, máy móc, nguyên liệu Hình 1.1 mô tả luồng tiền tiết kiệm được luân chuyển từ dân chúng đến các công ty
và ngược lại các chứng khoán là cổ phiểu và trái phiếu (CP & TP) được luân chuyển từ phía công ty đến dân chúng
Công ty
(những người cần
vốn)
Dân chúng (những người gửi tiết
kiệm) CP&
Vốn
Trang 4Hình 1.1 Các luồng vốn và chứng khoán trong một thế giới
không có ngân hàng
Hình 1.2 chỉ ra bức tranh thực tế của thế giới mà chúng ta đang sống, biểu diễn các lượng vốn luân chuyển trong nền kinh tế, qua đó cho thấy vai trò, vị trí của hệ thống ngân hàng là trung gian giữa người đầu tư và các công ty là như thế nào
Hình 1.2 Các luồng vốn luân chuyển trong một thế giới mà
các hệ thống ngân hàng tồn tại và phát triển
Ngân hàng thực hiện hai chức năng cơ bản đó là: chức năng luân chuyển tài sản và chức năng cung cấp các dịch vụ thanh toán, môi giới và chuyển tài sản; và chức năng cung cấp các dịch tư vấn
1.1.2 Các chức năng của ngân hàng thương mại
- Tạo tiền;
- Thanh toán;
Ngân hàng (nhà trung gian)
Ngân hàng (nhà luân chuyển tài
Trang 5- Huy động tiết kiệm;
- Qui chế về phân phối tín dụng;
- Qui chế về bảo vệ người tiêu dùng;
- Qui chế về bảo vệ người đầu tư;
- Qui chế về thành lập ngân hàng và cấp giấy phép kinh doanh
1.2 Tìm hiểu bảng cân đối kế toán ngân hàng và các chỉ số tài chính
1.2.1 Các khái niệm
1.2.2 Nội dung và kết cấu bảng cân đối kế toán 1.2.3 Mô tả các khoản mục trên bảng cân đối kế toán
1.2.4 Các chỉ số tài chính chủ yếu của ngân hàng
Trang 6Chương 2: CƠ SỞ LÝ THUYẾT VỀ KHAI THÁC DỮ LIỆU
2.1 Tổ chức và khai thác dữ liệu truyền thống
2.2 Bước phát triển tiếp theo của việc tổ chức và khai thác các cơ sở dữ liệu
2.3 Khai thác dữ liệu và quá trình phát hiện tri thức 2.4 Các dạng dữ liệu có thể khai thác dữ liệu
Khai thác dữ liệu có khả năng chấp nhận một số
kiểu dữ liệu khác nhau điển hình như sau:
- Cơ sở dữ liệu quan hệ (relational databases)
- Cơ sở dữ liệu đa chiều (multidimention structures, data warehouses, data mart)
- Cơ sở dữ liệu giao tác (transactional databases)
- Cơ sở dữ liệu quan hệ - hướng đối tượng (object relational databases)
- Dữ liệu không gian và thời gian (spatial, temporal, and time-series data)
- Cơ sở dữ liệu đa phương tiện (Multimedia databases)
2.5 Nhiệm vụ chính của khai thác dữ liệu
- Phân lớp (Classification)
- Hồi quy (regression)
Trang 7- Phân nhóm (Clustering)
- Tóm tắt (summarization)
- Mô hình hóa phụ thuộc (Dependency Modeling)
2.6 Các phương pháp khai thác dữ liệu
Quá trình khai thác dữ liệu là quá trình phát hiện mẫu, trong đó, giải thuật khai thác dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây
phân lớp, quy hồi, phân nhóm, v.v…
2.6.1 Các thành phần của giải thuật khai thác dữ liệu
- Biểu diễn mô hình
Trang 82.6.2.7 Mô hình phụ thuộc dựa trên đồ thị xác suất
2.6.2.8 Khai thác dữ liệu dạng văn bản (Text Mining)
2.6.2.9 Mạng neuron
2.6.2.10 Giải thuật di truyền
2.7 Phương pháp khai thác áp dụng trong luận văn
Trong luận văn này, phương pháp khai thác dữ liệu
đã được áp dụng chủ yếu là phương pháp khai thác luật kết hợp nhị phân có cải tiến bằng cách xác định những thuộc tính về phải để khám phá những luật thật sự quan tâm, thuật toán khám phá luật kết hợp nhị phân sẽ được trình bày trong chương 3
Trang 9Chương 3: KHÁM PHÁ LUẬT KẾT HỢP
3.1 Ý nghĩa của luật kết hợp
Luật kết hợp là một phương pháp phổ biến và quan trọng trong khai thác dữ liệu
Độ hỗ trợ (support) và độ tin cậy (confidence) là hai thước đo cho một luật kết hợp
3.2 Một số hướng tiếp cận trong khai thác luật kết hợp
- Luật kết hợp nhị phân (Binary association rule hoặc Boolean association rule)
- Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative and categorical association rule)
- Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rought set)
- Luật kết hợp nhiều mức (multi-level association rule)
- Luật kết hợp mờ (fuzzy assocication rule)
- Luật kết hợp với thuộc tính được đánh trọng số (association rule with weighted items)
- Khai thác luật kết hợp song song (parallel mining
of association rules)
3.3 Phát biểu bài toán khai thác luật kết hợp
Trang 10R là một quan hệ nhị phân trên I và T (hay R
IxT) Nếu giao tác t có chứa mục i thì ta viết (i, t)R
(hoặc iRt) Ta sẽ ký hiệu DM = (T, I, R) là dữ liệu (ngữ cảnh) để khai thác
Ví dụ về cơ sở dữ liệu (dạng giao tác): I = {A, B,
Trang 11Trong một số trường hợp để cho tiện ta biểu diễn bảng 3.1.a dưới dạng bảng nhị phân 0, 1 như sau:
Bảng 3.1.b Ví dụ về một cơ sở dữ liệu dạng giao tác –
Cho ngữ cảnh khai thác dữ liệu D = (T, I, R); X
I Gọi T(X) là tập giao tác chứa X Độ hỗ trợ (support) của một tập mục X, ký hiệu s(X) là tỷ số của số lượng giao tác trong cơ sở dữ liệu D chứa X trên tổng số các giao tác trong cơ sơ dữ liệu D Hay
Cho DM = (T, I, R) là dữ liệu để khai thác
X, Y I là các tập mục thỏa mãn điều kiện
Y
Trang 12Luật kết hợp của X và Y, ký hiệu X=>Y, đây là luật chỉ khả năng xuất hiện Y khi X xuất hiện
Luật kết hợp có hai độ đo gắn với nó là: độ hỗ trợ
và độ tin cậy (confidence) của luật
;
trong đó T(X) là tập giao tác chứa tập mục X
Độ tin cậy của luật kết hợp X => Y
Độ tin cậy (confidence) của luật X => Y, ký hiệu conf(X => Y) là tỷ số các giao tác trong D có chứa X Y trên số các giao tác chứa X Hay
Conf(X => Y) = card(T(X Y))/card(T(X)) =
Trang 13rule) là một trong những hướng tiếp cận quan trọng trong lĩnh vực khai thác luật kết hợp Đặc biệt trong phân tích
dữ liệu ngân hàng
Ví dụ ta xét tập 24 tài khoản của 24 khách hàng như sau:
Bảng 3.4 Cơ sở dữ liệu chi tiết của 24 giao dịch tiền gửi
tiết kiệm trong ngân hàng
DATE GUI
DATE RUT DATE
DH TIEN RUT
D
H T
H G
32.31 1
1,000,00 0,000
14.37 1
3,980,00 0,000
54.37 1
5,000,00 0,000
Trang 14Cơ sở dữ liệu có các thuộc tính như sau:
- Thuộc tính TAIKHOAN(tài khoản) là thuộc tính hạng mục
- Thuộc tính LOAITG(loại tiền gửi) là thuộc tính nhị phân: 1 là TG kỳ hạn và 0 là TG không kỳ hạn
- Thuộc tính TIENGUI(tiền gửi) và TIENRUT(tiền rút) là thuộc tính số
- Thuộc tính DATEGUI(ngày gửi), DATERUT(ngày rút) và DATEDH (ngày đến hạn) là thuộc tính số
Trang 15Luật 1: (LOAITG: kỳ hạn) AND (TIENGUI
300.000.000) => (khả năng DH là có) với độ tin cậy là 11/24 = 46% Hay:
Luật 2: (LOAITG: kỳ hạn) AND (TIENGUI
300.000.000) => (khả năng TH là có) với độ tin cậy là 3/24 =12,5% ( làm tròn 13%) Hay:
Luật 3: (LOAITG: kỳ hạn) AND (TIENGUI
500.000.000) => (khả năng GT là có) với độ tin cậy là 2/5
= 40% Hay:
Luật 4: (LOAITG: kỳ hạn 6 tháng) AND (TIENGUI 300.000.000) => (khả năng ĐH là có) với độ tin cậy là 3/6 = 50%
3.6 Phương pháp rời rạc hóa dữ liệu để phân tích tài chính – ngân hàng
Trường hợp 1: Nếu A là thuộc tính số rời rạc hoặc thuộc tính hạng mục có miền giá trị hữu hạn dạng {v1, v2,…, vk} và k đủ nhỏ (<100) thì ta biến đổi thuộc tính A
này thành k thuộc tính nhị phân Av1, Av2, ……Avk
Ví dụ: Trong bảng 3.4, ta chuyển thuộc tính TIENGUI thành 10 mục cụ thể như sau:
TIENGUI800(tg80), TIENGUI350(tg35);
TIENGUI300(tg30), TIENGUI400(tg40);
Trang 16Bảng 3.5 Rời rạc hóa thuộc tính thuộc tính hạng mục
Tg 5ty
D
H
32 1 0 0 0 0 0 0 0 0 0 0 .41 1 0 1 0 0 0 0 0 0 0 1 .37 1 0 1 0 0 0 0 0 0 0 0 .37 1 1 0 0 0 0 0 0 0 0 0 .30 1 1 0 0 0 0 0 0 0 0 0 .36 1 1 0 0 0 0 0 0 0 0 0 .31 1 0 0 0 1 0 0 0 0 0 1 .32 1 0 0 0 0 1 0 0 0 0 1 .37 1 0 0 0 0 0 0 1 0 0 1 .37 1 0 0 0 0 0 0 0 1 0 0 .41 1 0 0 1 0 0 0 0 0 0 1 .32 1 0 1 0 0 0 0 0 0 0 1 .36 1 1 0 0 0 0 0 0 0 0 0 .35 1 0 0 0 0 0 1 0 0 0 0 .35 1 1 0 0 0 0 0 0 0 0 0 .37 1 0 0 0 0 0 0 0 0 1 1 .41 1 1 0 0 0 0 0 0 0 0 1 .31 1 0 1 0 0 0 0 0 0 0 0 .37 1 0 1 0 0 0 0 0 0 0 0 .41 1 1 0 0 0 0 0 0 0 0 1 .32 1 0 0 1 0 0 0 0 0 0 1 .32 1 0 1 0 0 0 0 0 0 0 0 .37 1 0 0 1 0 0 0 0 0 0 1 .32 1 0 0 0 0 1 0 0 0 0 0
Trang 17Với cơ sở dữ liệu như bảng 3.5 ta có thể tính độ tin cậy Conf(({tg30, tg35, tg40}) => DH) như sau:
Conf(tg30 =>DH) =
7
2 = 29%
Conf(tg35 =>DH) =
6
2 = 33%
thuộc tính nhị phân <A:start1… end1>, <A : start2… end2>, ……… , <A: startq….endq>
Ví dụ thuộc tính số tiền gửi trong bảng 3.5 thuộc dạng này, ta chia thuộc tính số tiền gửi thành các thuộc tính nhị phân như sau:
TIENGUI1: tương ứng với số tiền gửi đến 300.000.000
TIENGUI2: tương ứng với số tiền gửi trên 300.000.000 đến 500.000.000
TIENGUI3: tương ứng với số tiền gửi trên 500.000.000
Trang 18Khi đó ta có bảng với cột tiền gửi được biến thành
TIEN GUI3 DATE
D
H T
H G
T
033240235
78.32 1 0 0 1 4/2/2004 829,059,200 0 0 1 033260007
29.41 1 0 1 0 7/2/2004 356,300,000 1 0 0 033240751
60.37 1 0 1 0 4/5/2004 362,070,672 0 0 1 033240751
42.37 1 1 0 0 4/5/2004 300,000,000 0 0 1 033260007
27.30 1 1 0 0 7/6/2004 305,400,000 0 0 1 033240003
85.36 1 1 0 0 4/6/2004 300,000,000 0 1 0 033260853
32.31 1 0 0 1 7/8/2004
1,018,000,00
0 1 0 0 033260235
99.32 1 0 1 0 7/8/2004 447,920,000 1 0 0 033240751
95.37 1 0 0 1 4/8/2004 732,960,000 1 0 0 033240752
14.37 1 0 1 0 4/9/2004
3,980,000,00
0 0 0 1 033240007
52.41 1 0 1 0
4/12/200
4 397,020,000 1 0 0 033260236
17.32 1 0 1 0
7/13/200
4 366,480,000 1 0 0 033240003
90.36 1 1 0 0
4/13/200
4 305,670,000 0 0 1 033240008
20.35 1 0 0 1
4/14/200
4 600,000,000 0 1 0 033240008
00.35 1 1 0 0
4/14/200
4 300,000,000 0 1 0 033240752
63.41 1 1 0 0
4/14/200
4 305,400,000 1 0 0 033240853
66.31 1 0 1 0
4/15/200
4 343,066,000 0 0 1 033240752
62.37 1 0 1 0
4/15/200
4 376,660,000 0 0 1 033240007
66.41 1 1 0 0
4/15/200
4 305,400,000 1 0 0
033240236 1 0 1 0 4/16/200 407,200,000 1 0 0
Trang 1974.37 1 0 1 0
4/16/200
4 407,200,000 1 0 0 033240236
61.32 1 0 1 0
4/19/200
4 458,100,000 0 0 1 Với số liệu như bảng 3.6 ta có thể xác định và tính
độ tin cậy các luật như:
TIENGUI1 => GT & conf( TIENGUI1 => GT) = 3/7 = 43%
TIENGUI2 => GT & conf( TIENGUI2 => GT) = 6/13 =48%
TIENGUI3 => GT & conf( TIENGUI3 => GT) = 1/4 = 25%
Vậy số khách hàng có tiền gửi từ 3 trăm triệu đến
3 trăm triệu sẽ gửi tiếp là lớn nhất = 48% Trong khi đó khách hàng gửi từ 5 trăm triệu trở lên chỉ có 25% gửi tiếp
Bây giờ ta xét bài toán rời rạc và nhị phân hóa cột hạng mục có hữu hạn giá trị trong bảng khách hàng Ví dụ: ta có danh sách khách hàng sau:
DATE GUI
DATE RUT
DATE
DH
TIEN RUT
Trang 20332.31
Có
KH
1,000,00 0,000
214.37
Có
KH
3,980,00 0,000
54.37
Có
KH
5,000,00 0,000
Trang 21Ta tiến hành rời rạc hóa cột hạng mục “loại tiền gửi” về hai cột (Có) kỳ hạn và (o) kỳ hạn, dạng nhị phân:
Bảng 3.8 Minh họa bảng dữ liệu có cột hạng mục được
nhị phân hóa
TAI
KHOAN Co O
TIEN GUI
DATE GUI
DATE RUT
DATE
DH
TIEN RUT
829,059,
200 0 0 1 0332600
0729.41 1 0
350,00 0,000 1/2/2004 7/2/2004 7/2/2004
356,300,
000 1 0 0 0332407
5160.37 1 0
343,00 0,000 1/5/2004
10/5/200
4 4/5/2004
362,070,
672 0 0 1 0332407
5142.37 1 0
300,00 0,000 1/5/2004
11/5/200
4 4/5/2004
300,000,
000 0 0 1 0332600
0727.30 1 0
300,00 0,000 1/6/2004 7/7/2004 7/6/2004
305,400,
000 0 0 1 0332400
0385.36 1 0
300,00 0,000 1/6/2004
2/12/200
4 4/6/2004
300,000,
000 0 1 0 0332608
5332.31 1 0
1,000,0 00,000 1/8/2004 7/8/2004 7/8/2004
1,018,00 0,000 1 0 0 0332602
3599.32 1 0
440,00 0,000 1/8/2004 7/8/2004 7/8/2004
447,920,
000 1 0 0 0332407
5195.37 1 0
720,00 0,000 1/8/2004 4/8/2004 4/8/2004
732,960,
000 1 0 0 0332407
5214.37 1 0
3,980,0 00,000 1/9/2004
10/8/200
4 4/9/2004
3,980,00 0,000 0 0 1 0332400
0752.41 1 0
390,00 0,000
3617.32 1 0
360,00 0,000
0390.36 1 0
300,00 0,000
0820.35 1 0
600,00 0,000
0800.35 1 0
300,00 0,000
5254.37 1 0
5,000,0 00,000
0763.41 1 0
300,00 0,000
5366.31 1 0
337,00 0,000
5262.37 1 0
370,00 0,000
Trang 220766.41 0,000 4 4 4 000
0332402
3640.32 1 0
400,00 0,000
3641.32 0 1
350,00 0,000
7274.37 0 1
400,00 0,000
3661.32 0 1
450,00 0,000
3661.35 0 1
450,00 0,000
3661.36 0 1
450,00 0,000
3661.37 0 1
450,00 0,000
3661.38 0 1
450,00 0,000
Loại tiền gửi => rút đúng hạn
Loại tiền gửi => rút trước hạn
Loại tiền gửi => gửi tiếp,…v.v
Trang 23KẾT LUẬN
1 Những vấn đề đã giải quyết trong luận văn
Với kiến thức về lĩnh vực ngân hàng còn hạn chế, những vấn đề đã được đề cập và giải quyết trong luận văn chỉ là một phần trong lĩnh vực phân tích tài chính ngân hàng, tuy nhiên trong luận văn cũng đã giải quyết được một số vấn đề sau:
Chương 1: Luận văn đã trình bày những kiến thức
cơ bản về ngân hàng thương mại, các chức năng của ngân hàng thương mại và bảng tổng kết tài sản cũng như các chỉ số tài chính bổ sung của hoạt động ngân hàng và mục tiêu của luận văn
Chương 2 và chương 3: Luận văn đã trình bày những vấn đề chung về khai thác dữ liệu, trong đó luận văn cũng đã trình bày được phương pháp khai thác dữ liệu được áp dụng trong luận văn là phương pháp khai thác luật kết hợp nhị phân bằng cách áp dụng các phương pháp
rờ rạc hóa để đưa bảng dữ liệu tài chính về các bảng nhị phân để có thể áp dụng các luật kết hợp Phương pháp khám phá luật dựa trên việc xác định những thuộc tính chỉ xuất hiện ở vế trái và những thuộc tính chỉ xuất hiện ở vế phải của luật, như vậy thuật toán khám phá luật kết hợp