1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế tài chính

14 298 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 555,6 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xuất phát từ những thực tiễn đó, mặc dù lý thuyết tập thô được khởi xướng từ thập niên tám mươi của thế kỷ trước, song ngày càng được ứng dụng một cách rộng rãi trong việc phát hiện tri

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

—————————

NGUYỄN VIỆT HÀ

ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG KHAI PHÁ DỮ LIỆU KINH TẾ – TÀI CHÍNH

LUẬN VĂN THẠC SĨ

Ngành: Công nghệ thông tin

Mã số: 1.01.10

NGƯỜI HƯỚNG DẪN KHOA HỌC

HÀ NỘI - 2007

Trang 2

MỤC LỤC

MỤC LỤC 2 DANH MỤC CÁC TỪ VIẾT TẮT Error! Bookmark not defined DANH MỤC CÁC BẢNG Error! Bookmark not defined DANH MỤC CÁC HÌNH VẼ Error! Bookmark not defined

MỞ ĐẦU 3 CHƯƠNG 1 TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC 5

1.1 Tổng quan về khai phá dữ liệu và phát hiện tri thức 5

1.2 Một số khái niệm cơ bản Error! Bookmark not defined 1.3 Một số vấn đề KDD trong kinh tế - tài chính Error! Bookmark not

defined

1.4 Tổng kết chương 1 Error! Bookmark not defined

CHƯƠNG 2 PHÁT HIỆN TRI THỨC VÀ ỨNG DỤNG TRONG CÁC BÀI TOÁN KINH TẾ - TÀI CHÍNH Error! Bookmark not defined

2.1 Rời rạc hoá dữ liệu số và chuyển chuỗi thời gian vào đối tượng tập

thô Error! Bookmark not defined

2.2 Lựa chọn thuộc tính và phân lớp dựa trên quan hệ giá trị gần –VCR

(valued closeness relation) Error! Bookmark not defined

2.3 Ứng dụng tập thô trong đánh giá công ty Error! Bookmark not

defined

2.4 Đánh giá chính sách tín dụng của các ngân hàng Error! Bookmark

not defined

2.5 Đánh giá chiến lược thị trường Error! Bookmark not defined

2.6 Nhận xét và thảo luận một số vấn đề về sử dụng lý thuyết tập thô

trong ứng dụng kinh tế - tài chính Error! Bookmark not defined 2.7 Tổng kết chương 2 Error! Bookmark not defined

CHƯƠNG 3 PHÁT HIỆN TRI THỨC QUA LẬP TRÌNH LOGIC QUY NẠP VÀ ỨNG DỤNG TRONG PHÁT HIỆN CÁC DẦU HIỆU TÀI CHÍNH BẤT THƯỜNG Error! Bookmark not defined

3.1 Giới thiệu Error! Bookmark not defined

3.2 Lập trình logic qui nạp (Inductive logic programming - LLP)[27]

Error! Bookmark not defined 3.3 Thuật toán FOIL và FOCL [20, 21] Error! Bookmark not defined 3.4 Thuật toán MMDR Error! Bookmark not defined 3.5 Ứng dụng MDDR trong phát hiện các điểm bất thường Error!

Bookmark not defined

Trang 3

3.6 Tổng kết chương 3 Error! Bookmark not defined

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11

Trang 4

MỞ ĐẦU

Trong những năm gần đây, mặc dù đã có nhiều công cụ hỗ trợ đắc lực cho việc thu thập, lưu trữ, khai thác dữ liệu, song với sự bùng nổ của thông tin thu thập được đã vượt ra ngoài khả năng của con người để nắm bắt và khai thác một cách hiệu quả, do vậy trong nhiều trường hợp các quyết định được đưa ra không dựa vào những thông tin hoặc dữ liệu thu thập được và chủ yếu dựa vào nhận thức, suy đoán của người ra quyết định Bên cạnh đó những khiếm khuyết của các công cụ hỗ trợ đem lại cho người dùng tình trạng các tri thức lấy ra từ lượng dữ liệu lớn lại thiếu thông tin

Từ đó phát sinh yêu cầu tự nhiên là tìm kiếm một kỹ thuật mới có các đặc tính thông minh và khả năng tự động để hỗ trợ con người chắt lọc thông tin hữu ích trong một khối dữ liệu lớn

Xuất phát từ những thực tiễn đó, mặc dù lý thuyết tập thô được khởi xướng từ thập niên tám mươi của thế kỷ trước, song ngày càng được ứng dụng một cách rộng rãi trong việc phát hiện tri thức, phân tích quyết định, quy luận quy nạp và nhận dạng mẫu Nó dường như cũng đặc biệt quan trọng cho các hệ thống trợ giúp quyết định và khai phá dữ liệu Thực tế đây

là một cách tiếp cận mới cho việc phân tích dữ liệu

Từ những vấn đề đó, nội dung đề tài này tập trung vào những vấn đề

cơ bản của lý thuyết tập thô và những ứng dụng của nó trong các bài toán kinh tế, trong cơ sở dữ liệu thị trường, và trong việc tìm kiếm các yếu tố bất

thường trong lĩnh vực tài chính ngân hàng

Mục tiêu nhiệm vụ và phạm vi nghiên cứu

Nắm vững cơ sở lý thuyết, các khái niệm cơ bản, khái quát về các phương pháp ứng dụng lý thuyết tập thô trong khai phá dữ liệu; nghiên cứu

mô hình tập thô trong các bài toán kinh tế: phương pháp, mô hình phân tích lượng dữ liệu lớn trên cơ sở lý thuyết tập thô, với các ví dụ điển hình của ứng dụng lý thuyết tập thô để giải quyết các vấn để hỗ trợ quyết định 3 lĩnh

Trang 5

vực: đánh giá công ty, chính sách tài chính của ngân hàng, chiến lược thị trường

Tìm hiểu ứng dụng mô hình tập thô trong nghiên cứu thị trường qua

cơ sở dữ liệu, khám phá các yếu tố, các điểm bất thường trong lĩnh vực tài chính sử dụng lập trình suy luận quy nạp

Bố cục luận văn

- Chương 1: Trình bày tổng quan về khai phá dữ liệu và phát hiện tri thức, giới thiệu khái niệm, nhiệm vụ chính của khai phá dữ liệu và phát hiện tri thức Trình bày chi tiết về lý thuyết tập thô bao gồm: hệ thống thông tin, quan hệ không phân biệt được, xấp xỉ tập, rút gọn và lõi của tập các thuộc tính, hàm thành viên thô, độ chính xác và chất lượng xấp xỉ Giới thiệu một số vấn đề về khai phá dữ liệu - phát hiện tri thức trong lĩnh vực kinh tế tài chính

- Chương 2 : Trình bày ứng dụng cách tiếp cận tập thô trong dự báo kinh tế - tài chính, bao gồm: lựa chọn và rời rạc hoá các thuộc tính giá trị dạng số, hệ thống thông tin biểu thị thời gian, chuyển đổi chuỗi thời gian vào các đối tượng tập thô, chuỗi dẫn xuất, lựa chọn các thuộc tính để qui nạp luật quyết định dựa trên tập thô, quá trình phân lớp các đối tượng mới theo các luật quyết định dựa trên quan hệ giá trị gần – VCR, giới thiệu ứng dụng trong 3 bài toán kinh tế: đánh giá công ty, đánh giá chính sách tín dụng và chiến lược thị trường

- Chương 3 : Tập trung tìm hiểu phương pháp khai phá dữ liệu quan

hệ dựa trên lập trình logic qui nạp (ILP) Giới thiệu mô hình khai phá dữ liệu quan hệ, luật và logic cấp 1, các thuật toán khai phá dữ liệu quan hệ FOIL, FOCL, và thuật toán MMDR để khám phá các yếu tố bất thường trong lĩnh vực kinh tế

Trang 6

Chương 1

TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG

DỤNG TRONG PHÁT HIỆN TRI THỨC

1.1 Tổng quan về khai phá dữ liệu và phát hiện tri thức

1.1.1 Những tiến bộ trong công nghệ CSDL [2]

Nhu cầu tích luỹ và xử lý các dữ liệu nảy sinh trong mọi công việc, trong mọi hoạt động của con người, trong mọi vấn đề từ kỹ thuật, kinh tế -

xã hội đến hoạt động quản lý Thập niên 1960 gắn liền với các sản phẩm đầu tiên của hệ quản trị tệp, xuất hiện bộ nhớ ngoài, như là bộ nhớ trong lý tưởng [2] Giữa những năm 60, thế hệ đầu của hệ quản trị cơ sở dữ liệu đánh dấu bằng việc phân rõ, mô tả những dữ liệu của chương trình ứng dụng và ngôn ngữ truy nhập bên trong, bằng các lệnh hỏi phi thủ tục, người

ta có thể truy nhập dữ liệu, tìm đến các bản ghi thay vì phải đi theo cấu trúc

lưu trữ vật lý của dữ liệu (Hệ QTCSDL mạng)

Thập niên 1970, mô hình dữ liệu quan hệ, cài đặt hệ quản trị CSDL quan hệ Mô hình quan hệ giúp đơn giản hoá việc truy nhập dữ liệu của người sử dụng bên ngoài

Thập niên 1980, xuất hiện hệ QTCSDL quan hệ, các mô hình dữ liệu nâng cao (quan hệ mở rộng, hướng đối tượng, suy diễn, v.v.) và các hệ quản trị CSDL hướng ứng dụng (không gian, khoa học, cộng nghệ, vv )

Từ thập niên 1990 - những năm 2000: khai phá dữ liệu (data mining)

và kho dữ liệu (data warehouse), cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu

web

1.1.2 Dữ liệu, Thông tin và Tri thức [14 ]

Dữ liệu (data): Chúng ta thường thu thập và nhìn thấy hàng ngày, ví

dụ: một chuỗi các bit, các con số, kí tự, biểu tượng, hay một đối tượng,

Trang 7

Thông tin (Information): Là ―dữ liệu‖ đã được loại bỏ các phần dư

thừa, không cần thiết Thông tin mô tả các đặc trưng, thuộc tính của ―dữ liệu‖ với chi phí nhỏ nhất

Tri thức (Knowledge) :

o Là sự tích hợp các ―thông tin‖ bao gồm cả quan hệ, là sự đúng đàn đã được kiểm nghiệm, là sự khám phá, sự hiểu biết,

o Nói cách khác tri thức có thể được xem như dữ liệu ở mức cao của của quá trình trừu tượng hóa và khái quát hoá

1.1.3 Khai phá dữ liệu và phát hiện tri thức

Nếu cho rằng các điện tử và các sóng diện từ chính là bản chất của công nghệ điện tử truyền thống thì dữ liệu, thông tin và tri thức hiện dang

là tiêu điểm của một lĩnh vực mới trong nghiên cứu và ứng dụng về phát hiện tri thức (Knowledge Discovery) và khai phá dữ liệu (Data Mining) [3]

Phát hiện tri trong cơ sở dữ liệu thức (Knowledge discovery in Database - KDD) là tiến trình nhận diện các dạng/các mô hình cơ bản hiểu được, có giá trị, mới lạ, nhiều tiềm năng hữu ích Khai phá dữ liệu (Data mining) là một bước trong tiến trình phát hiện tri thức, bao gồm một số thuật toán khai phá dữ liệu cụ thể theo một vài giới hạn tính toán chấp nhận

được, nhằm tìm ra các dạng, các mô hình trong dữ liệu [14, 20, 311] Nói

cách khác, mục tiêu của phát hiện tri thức và khai phá dữ liệu là tìm ra các

Trang 8

dạng các mô hình quan tâm chứa đựng trong cơ sở dữ liệu mà được che dấu

ở giữa các tập lớn dữ liệu

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu

Thuật ngữ khai phá dữ liệu (data mining) ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ data mining như

knowledge mming (khai phá tri thức), knowledge extraction (chắt lọc tri

thức), data/pattern analysis (Phân tích dữ liệu/mẫu), data archaeology (khảo cồ dữ liệu), data dredging (nạo vét dữ liệu) Hiện nay, thuật ngữ khai

phá dữ liệu (data mining) được dùng quá quen thuộc và người ta thường

đồng nhất với thuật ngữ Knowledge Discovery in Databases (KDD)

Còn các nhà thống kê thì xem khai phá dữ liệu như là một qui trình phân tích được thiết kế để thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho các tập con mới của dữ liệu Qui trình này bao gồm ba giai đoạn cơ bản: thăm dò, xây dựng mô hình hoặc định nghĩa mẫu, hợp thức/kiểm chứng [3]

Trang 9

 Trích chọn dữ liệu: chọn lọc dữ liệu từ các nguồn dữ liệu nhằm phục

vụ mục đích khai phá tri thức theo những tiêu chí xác định Ví dụ, từ CSDL về bán hàng, ta chọn ra các dữ liệu về khách hàng, đơn đặt hàng, hoá đơn,

 Tiền xử lý: làm sạch và làm giàu dữ liệu Làm đầy đủ dữ liệu, xử lý

nhiễu, những vấn đề không nhất quán, v.v Ví dụ, một khách hàng có thể được lưu ở nhiều bản ghi có thể có những tên, địa chỉ khác nhau, cần phải chỉnh sửa để đảm bảo nhất quán và chính xác về khách hàng đó Những dữ liệu khác nhau về khuôn dạng, đơn vị đo lường, v.v cần phải có những qui định thống nhất và cách chuyển về một dạng chung

 Biến đổi dữ liệu: thực hiện bước mã hoá dữ liệu và chạy các chương

trình tiện ích nhằm tự động hoá việc kết xuất, biến đổi và di chuyển

dữ liệu để khai phá dữ liệu

 Khai phá dữ liệu: thực hiện phân tích và ra quyết định Đây là bước

áp dụng các kỹ thuật khai thác để khai phá, trích chọn ra các mẫu tin, những mối quan hệ đặc biệt trong kho

 Biểu diễn tri thức và đánh giá: các kết quả khai thác được có thể

tổng hợp dưới dạng các báo cáo nhằm hỗ trợ cho trợ giúp quyết định Các dạng biểu diễn thường là phải trực quan, dưới dạng đồ hoạ, cây, bảng biểu, hay các luật v.v

1.1.4 Các bước của quá trình khai phá dữ liệu

Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình hoạt động trực tiếp trên tệp dữ liệu Với các phương pháp học máy và thống kê trước đây, thường thì bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ nhớ Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được Không chỉ bởi vì nó không thể nạp hết dữ liệu vào trong

Trang 10

bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các tệp đơn giản để phân tích được

Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp

Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp, các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v Có rất nhiều các giải thuật khai phá dữ liệu thực hiện dựa trên những thống kê tóm tắt khá đơn giản của CSDL, khi mà toàn

bộ thông tin trong CSDL là quá dư thừa đối với mục đích của việc khai phá

dữ liệu

Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu để tìm được các hình mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn dưới dạng các luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi

quy, )

Đặc điểm của mẫu là phải mới (ít nhất là đối với hệ thống đó) Độ mới có thể được đo tương ứng với độ thay đổi trong dữ liệu bằng cách so sánh các giá trị hiện tại với các giá trị trước đó hoặc các giá trị mong muốn), hoặc bằng tri thức (mối liên hệ giữa phương pháp tìm mới và phương pháp cũ như thế nào) Thường thì độ mới của mẫu được đánh giá bằng một hàm logic hoặc hàm đo độ mới, độ bất ngờ của mẫu Ngoài ra, mẫu phải có khả năng sử dụng tiềm tàng Các mẫu này sau khi được xử lý

và diễn giải phải dẫn đến những hành động có ích nào đó được đánh giá bởi một hàm lợi ích.Với các giải thuật và các nhiệm vụ của khai phá dữ liệu rất

Trang 11

khác nhau, dạng của mẫu chiết xuất được cũng rất da dạng Dạng của mẫu chiết xuất được có thể được phân loại bởi kiểu mẫu dữ liệu mà nó mô tả

Kỹ thuật khai phá dữ liệu thực chất không có gì mới Nó là sự kế thừa, kết hợp và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu từ trước như học máy, nhận dạng, thống kê (hồi quy, xếp loại, phân cụm), các

mô hình đồ thị, mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia, v.v Tuy nhiên, với sự kết hợp tài tình của khai phá dữ liệu, kỹ thuật này có ưu thế hơn hẳn các phưng pháp trước đó, đem lại nhiều triển vọng trong việc ứng dụng phát triển nghiên cứu khoa học cũng như làm tăng mức lợi nhuận trong các hoạt động kinh doanh

1.1.5 Nhiệm vụ chính của khai phá dữ liệu [14, 31]

Rõ ràng mục đích của khai phá dữ liệu là các tri thức chiết xuất sẽ được sử dụng cho lợi ích cạnh tranh trên thương trường và các lợi ích trong nghiên cứu khoa học

Do đó, ta có thể coi mục đích chính của khai phá dữ liệu là mô tả (description) và dự đoán (prediction) Các hình mẫu mà khai phá dữ liệu phát hiện được nhằm vào các mục đích này Dự đoán liên quan đến việc sử dụng các biến hoặc các trường trong cơ sở dữ liệu để chiết xuất ra các hình mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai của các biến quan tâm Mô tả tập trung vào việc tìm kiếm các hình mẫu

mô tả dữ liệu mà con người có thể hiểu được Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ liệu bao gồm như sau [14, 31] Phân lớp (Classification):

- Phân lớp là việc tự học một hàm, hàm này ánh xạ (hay phân loại)

một mục dữ liệu vào một trong số các lớp đã xác định trước (Hand 1981; Weiss & Kulilowski 1992)

Ngày đăng: 16/11/2016, 21:03

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w