1. Trang chủ
  2. » Luận Văn - Báo Cáo

CÔNG NGHỆ TRI THỨC VÀ BÀI TOÁN KHAI PHÁ DỮ LIỆU TRONG KINH DOANH VỚI MICROSOFT TIME SERIES ALGORITHM

32 616 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,7 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong bài báo cáo này em xin trình bày những khái niệm chung nhất về định nghĩa và vai trò của công nghệ tri thức và một ứng dụng thực tế về lĩnh vực khai phá dữ liệu để dự đoán tình hìn

Trang 1

Trang 1 / 32

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHÓA LUẬN TỐT NGHIỆP THẠC SĨ

CHUYÊN ĐỀ CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG

TP Hồ Chí Minh, Năm 2013

Trang 2

Trang 2 / 32

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Họ và tên: TRẦN THỊ KIỀU DIỄM

Trang 3

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT 4

DANH MỤC CÁC HÌNH VẼ 5

MỞ ĐẦU 6

1 P HÁT BIỂU VẤN ĐỀ NGHIÊN CỨU : 6

2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN : 6

3 T ỔNG LƯỢC KẾT QUẢ ĐÃ CÓ : 6

PHẦN 1 CÔNG NGHỆ TRI THỨC VÀ VAI TRÒ 7

1.1 K HÁI NIỆM CÔNG NGHỆ TRI THỨC 7

1.2 V AI TRÒ CỦA CÔNG NGHỆ TRI THỨC 7

PHẦN 2 KHAI PHÁ DỮ LIỆU VÀ CÁC GIẢI THUẬT KHAI PHÁ DỮ LIỆU 8

2.1 Đ ỊNH NGHĨA KHAI PHÁ DỮ LIỆU 8

2.2 Ý NGHĨA THỰC TẾ CỦA KHAI PHÁ DỮ LIỆU 9

2.3 K IẾN TRÚC ĐIỂN HÌNH CỦA KHAI PHÁ DỮ LIỆU 10

2.4 C ÁC CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU 10

2.4.1 Mô tả khái niệm (concept description) 10

2.4.2 Luật kết hợp (association rules) 10

2.4.3 Phân lớp và dự đoán (classification & prediction) 10

2.4.4 Phân cụm (clustering) 11

2.5 N HỮNG KHÓ KHĂN TRONG KHAI PHÁ DỮ LIỆU 11

2.6 M ỘT SỐ GIẢI THUẬT TRONG KHAI PHÁ DỮ LIỆU 11

PHẦN 3 DATAMINING VỚI CÔNG CỤ BUSINESS INTELLIGENCE DEVELOPMENT STUDIO (BIDS) CỦA MICROSOFT SQL SERVER 2008 13

3.1 Đ ỊNH NGHĨA BIDS 13

3.2 C ÁC BƯỚC LÀM VIỆC VỚI BIDS 13

PHẦN 4 SỬ DỤNG MÔ HÌNH KHAI PHÁ DỮ LIỆU MICROSOFT TIME SERIES ĐỂ DỰ ĐOÁN TÌNH HÌNH KINH DOANH CỦA CÔNG TY LOCK&LOCK VIỆT NAM 17

4.1 G IỚI THIỆU MÔ HÌNH KHAI PHÁ DỮ LIỆU M ICROSOFT T IME S ERIES 17

4.2 P HÁT BIỂU BÀI TOÁN ỨNG DỤNG 18

4.3 X Ử LÝ DỮ LIỆU THÔ 19

4.3.1.Làm sạch và tích hợp dữ liệu 19

4.3.2 Trích chọn và chuyển đổi dữ liệu 19

4.4 T IẾN TRÌNH KHAI PHÁ DỮ LIỆU 20

4.4.1 Tạo mới DB 20

4.4.2 Tạo Project trong BIDS 20

4.4.3 Tạo mô hình khai phá Microsoft Time Series trong project 21

4.4.4 Cài đặt ứng dụng kết nối tới SQL trong C# 27

TÀI LIỆU THAM KHẢO 32

Trang 4

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

1 KDD Knowleadge Discovery in Database

2 ANN Artificial Neural Network

3 BIDS Business Intelligence Development Studio

4 DS Data Source

5 DSV Data Source View

6 DB Database

Trang 5

DANH MỤC CÁC HÌNH VẼ

(Hình 1 Mô hình minh họa quá trình xử lý dữ liệu cho ra tri thức) 7

(Hình 2 Kiến trúc điển hình của khai phá dữ liệu) 10

(Hình 3 Thao tác kết nối với SQL server) 13

(Hình 4 Thao tác tạo mới DB) 14

(Hình 5 Thao tác Import dữ liệu vào Database) 14

(Hình 6 Thao tác tạo mới project) 15

(Hình 7 Thao tác tạo mới DS) 15

(Hình 8 Thao tác tạo mới DSV) 16

(Hình 9 Thao tác tạo mới Mining Structures) 16

(Hình 10 Thao tác tạo DB cho ứng dụng) 20

(Hình 11 Thao tác tạo Data Source và kiểm tra kết nối) 21

(Hình 12 Thao tác chọn Table đưa vào DSV) 21

(Hình 13 Thao tác chọn DSV để khai phá) 22

(Hình 14 Thao tác chọn các thuộc tính để khai phá) 23

(Hình 15 Mô hình khai phá Time Series dạng charts) 24

(Hình 16 Mô hình khai phá Time Series dạng charts cho thuộc tính QTY) 25

(Hình 17 Xem dữ liệu QTY mô hình khai phá Time Series) 26

(Hình 18 Mô hình khai phá Time Series dạng Trees) 26

(Hình 19 Xem dữ liệu mô hình khai phá Time Series) 27

(Hình 20 Giao diện chương trình minh họa dữ liệu khai phá) 30

Trang 6

MỞ ĐẦU

1 Phát biểu vấn đề nghiên cứu:

Sự ra đời của máy tính điện tử và sự phát triển vượt bậc của ngành công nghiệp máy tính cùng với nhu cầu của con người đối với máy tính ngày một cao hơn, ngoài những công việc tính toán thông thường, người ta còn mong đợi máy tính có khả năng xử lí thông minh hơn, giải quyết những công việc giống như con người Trong bài báo cáo này em xin trình bày những khái niệm chung nhất về định nghĩa và vai trò của công nghệ tri thức và một ứng dụng thực tế về lĩnh vực khai phá dữ liệu để dự đoán tình hình kinh doanh của công ty dựa vào dữ liệu đã

có trong năm trước

2 Ý nghĩa khoa học và thực tiễn:

Quá trình khai phá dữ liệu – Data Mining, đây là một quá trình khám phá tri thức tiềm ẩn từ nguồn dữ liệu đã có, là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ cho các tiến trình ra quyết định

3 Tổng lược kết quả đã có:

Hiện các nhà nghiên cứu đã phát triển các phương pháp, kỹ thuật và phần mềm hỗ trợ tiến trình khai phá dữ liệu, với một số các kỹ thuật này ta tìm ra được những tri thức mới, từ đó ứng dụng vào thực tế phục vụ cho nhu cầu cần thiết của con người

Em xin chân thành cảm ơn thầy GS.TSKH Hoàng Kiếm đã tận tình

giảng dạy giúp em hoàn thành tốt bài báo cáo này

Trang 7

PHẦN 1 CÔNG NGHỆ TRI THỨC VÀ VAI TRÒ

1.1 Khái niệm công nghệ tri thức

- Khái niệm tri thức: tri thức là kết quả của quá trình nhận thức, học tập và lập luận, tri thức khác với thông tin và dữ liệu ở chỗ tri thức cho ta cách giải quyết một vấn đề hay giải pháp để thực hiện một công việc nào đó

- Khái niệm công nghệ tri thức: Công nghệ tri thức là những phương pháp,

kĩ thuật dùng để

 Tiếp nhận, biểu diễn tri thức

 Xây dựng các hệ cơ sở tri thức

 Khai phá tri thức từ dữ liệu đã có (khai phá dữ liệu)

1.2 Vai trò của công nghệ tri thức

- Công nghệ tri thức đóng vai trò hết sức quan trọng trong việc phát triển Công nghệ thông tin, nâng cao sự hữu dụng của máy tính, giúp con người gần gũi với máy tính hơn

- Công nghệ tri thức còn góp phần thúc đẩy nhiều ngành khoa học khác phát triển, khả năng phát triển khoa học dựa trên tri thức liên ngành…

- Mô hình minh họa

(Hình 1 Mô hình minh họa quá trình xử lý dữ liệu cho ra tri thức)

Từ tập dữ liệu Inputs, các hệ cơ sở tri thức được cài đặt trong máy tính sẽ giúp tìm được output cần thiết, đó chính là các tri thức hoàn toán mới được rút ra từ tập dữ liệu Inputs

Trang 8

PHẦN 2 KHAI PHÁ DỮ LIỆU VÀ CÁC GIẢI THUẬT KHAI PHÁ DỮ LIỆU

2.1 Định nghĩa khai phá dữ liệu

- Khai phá dữ liệu (hay data mining) là tiến trình khám phá tri thức tiềm ẩn trong các cơ sở dữ liệu, cụ thể hơn đó là tiến trình trích lọc, sản sinh những tri thức bị che giấu trong một khối dữ liệu khổng lồ Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích

dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging (nạo vét dữ liệu)

- Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong kho dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định

- Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD (Knowleadge Discovery in Database) và KDD được xem như 7 quá trình khác nhau theo thứ tự sau:

 Làm sạch dữ liệu (data cleaning & preprocessing): Loại bỏ nhiễu và các dữ liệu không cần thiết

 Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning & preprocessing)

 Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho

dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data), v.v

 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý

Trang 9

 Khai phá dữ liệu (data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc

- Mục đích của việc khai phá dữ liệu không phải phát hiện mọi tri thức mà

là phát hiện những tri thức cần thiết phục vụ cho một nhiệm vụ đã đề ra Ví dụ từ

cơ sở dữ liệu về các bệnh nhân bị tiểu đường người ta tìm được những đặc điểm

mà có thể kết luận bệnh nhân nào đó có bị tiểu đường hay không

2.2 Ý nghĩa thực tế của khai phá dữ liệu

- Thực tế là chúng ta đang sở hữu một lượng dữ liệu khổng lồ nhưng lại nghèo tri thức và Data Mining ra đời như một lối đi cho việc tìm kiếm tri thức

hữu ích từ kho dữ liệu khổng lồ đó

- Tổng quát nhất, datamining cho ta ba lợi ích sau: cung cấp hỗ trợ ra

quyết định, dự báo, khái quát dữ liệu từ tập dữ liệu thô

- Những tri thức rút ra được ứng dụng vào nhiều lĩnh vực khác nhau trong

cuộc sống, cụ thể như một số ứng dụng sau:

 Text mining & Web mining: giúp phân loại văn bản, mail hay Web

 Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support)

 Điều trị y học (medical treatment): giúp chuẩn đoán bệnh từ những dấu hiệu đã được phát hiện

 Tài chính và thị trường chứng khoán (finance & stock market): dự đoán sự tăng giảm tình hình tài chính và chỉ số chứng khoán

Trang 10

 Nhận dạng (pattern recognition): giúp ích cho bài toán nhận dạng người hay nhận dạng vân tay tội phạm, …

2.3 Kiến trúc điển hình của khai phá dữ liệu

(Hình 2 Kiến trúc điển hình của khai phá dữ liệu)

2.4 Các chức năng chính của khai phá dữ liệu

2.4.1 Mô tả khái niệm (concept description)

Là mô tả, tổng hợp và tóm tắt khái niệm, được ứng dụng trong việc tóm tắt các văn bản dài dựa vào tần số xuất hiện một số từ trong văn bản

2.4.2 Luật kết hợp (association rules)

Là khám phá ra các luật kết hợp trong một tập dữ liệu, các luật kết hợp thể hiện mối quan hệ giữa các thuộc tính mà ta nhận thấy được từ tần suất xuất hiện cùng với nhau, giúp ích cho lĩnh vực kinh doanh, y học,…

2.4.3 Phân lớp và dự đoán (classification & prediction)

Là quá trình tìm một tập các mô hình (hoặc các chức năng) mô tả và phân biệt các lớp dữ liệu, được sử dụng cho mục đích dự đoán về lớp của một số đối tượng Mô hình này có thể được biểu diễn ở dạng luật IF-THEN, cây quyết định hay mạng Nơron

Trang 11

2.4.4 Phân cụm (clustering)

Là việc sắp xếp các đối tượng theo từng cụm, các đối tượng trong cùng một cụm có độ giống nhau cao nhất, hai cụm khác nhau có mức độ giống nhau thấp nhất, ứng dụng cho bài toán vận chuyển cần ít chi phí

2.5 Những khó khăn trong khai phá dữ liệu

 Dữ liệu cần khai phá thường là dữ liệu có cấu trúc hoặc không có cấu trúc nhất định, do đó khó khăn đầu tiên là quá trình tổ chức lại dữ liệu theo một khuôn dạng nhất định

 Sự bùng nổ về dữ liệu làm cho quá trình phát hiện ra các mẫu dữ liệu hữu ích trong số đó cũng mất nhiều thời gian hơn, do đó đòi hỏi nhiều hơn nữa các thuật toán giúp khai phá dữ liệu nhanh chóng

 Dữ liệu thường xuyên thay đổi theo thời gian và không ngừng gia tăng

về số lượng

2.6 Một số giải thuật trong khai phá dữ liệu

2.6.1 Thuật toán Decision Tree (cây quyết định hay còn gọi là cây định danh)

Cây định danh là cây được xây dựng dựa trên tập dữ liệu cho trước mà khi tiến hành duyệt cây ta có được tập các luật từ nó Mỗi nút (node) của cây định danh là một thuộc tính của tập dữ liệu, các nhánh đại diện cho luật kết hợp các thuộc tính phân loại

Giải thuật chính của cây quyết định là chia dữ liệu một cách đệ quy từ trên xuống và theo cách thức chia để trị thành các tập hợp con

- Ban đầu toàn bộ dữ liệu ở gốc,

- Chọn thuộc tính phân loại tốt nhất( mục đích làm tối thiểu hóa, chẳng hạn tối thiểu chiều cao của cây)

Trang 12

- Dữ liệu được phân chia theo các trạng thái của thuộc tính được chọn

Lặp lại quá trình trên với tập dữ liệu ở mỗi nút vừa tạo ra Điều kiện để dừng phân chia là:

- Ở một nút tất cả phần tử của dữ liệu tại nút đĩ thuộc về cùng một lớp

- Khơng cịn thuộc tính nào để thực hiện phân chia tiếp

- Số lượng phần tử của dữ liệu tại một nút bằng khơng

2.6.2 Thuật tốn Naive Bayes (phân loại)

Nạve Bayes là phương pháp phân loại đối tượng thuộc vào một lớp nào đĩ dựa vào xác suất Thuật tốn tính xác suất cĩ điều kiện các trạng thái của mỗi thuộc tính đầu vào với mỗi trạng thái của thuộc tính dự báo Thuật tốn này chỉ hỗ trợ các thuộc tính cĩ giá trị rời rạc và sẽ phát sinh lỗi nếu áp dụng cho các thuộc tính cĩ giá trị liên tục

2.6.3 Thuật tốn Clustering (gom cụm)

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nĩ thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning Phân cụm là qui trình tìm cách nhĩm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì khơng tương tự (Dissimilar) nhau Mục đích của phân cụm là tìm ra bản chất bên trong các nhĩm của dữ liệu Các thuật tốn phân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters)

2.6.4 Thuật tốn Association (phân lớp)

Khai phá luật kết hợp (Association Rule Discovery) là kỹ thuật rất quan trọng trong lĩnh vực khai phá dữ liệu Mục đích của việc khai phá luật kết hợp là tìm ra các mối quan hệ, sự kết hợp hay mối tương quan giữa các đối tượng trong khối lượng lớn

dữ liệu

Trang 13

PHẦN 3 DATAMINING VỚI CÔNG CỤ BUSINESS INTELLIGENCE DEVELOPMENT STUDIO (BIDS) CỦA MICROSOFT SQL SERVER 2008

3.1 Định nghĩa BIDS

BIDS là một công cụ đƣợc tích hợp trong Microsoft Visual Studio khi ta cài đặt SQL Server 2005 trở đi, công cụ này giúp thực hiện một số mô hình khai phá

dữ liệu (data mining) một cách trực quan và dễ dàng

BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:

 Micorosft Decision Tree (Cây quyết định)

 Microsoft Clustering (Phân cụm)

 Micorosoft Naive Bayes (Phân lớp với Bayes Rules)

 Micorosoft Time Series (Chuỗi thời gian)

 Micorosoft Association (Luật kết hợp)

 Micorsoft Sequence Clustering (Phân tích chuỗi)

 Microsoft Neural Network (Mạng Neural)

 Micorsoft Linear Regression (Hồi qui tuyến tính)

 Micorsoft Logistics Regression (Hồi qui logistics)

3.2 Các bước làm việc với BIDS

a Kết nối với Server: Start  All programs  SQL Server 2008  SQL Server Management Studio

(Hình 3 Thao tác kết nối với SQL server)

Trang 14

b Tạo mới một Database (DB)

(Hình 4 Thao tác tạo mới DB)

c Import dữ liệu vào DB

(Hình 5 Thao tác Import dữ liệu vào Database)

d Tạo Project trong BIDS

Start  All programs  SQL Server 2008  SQL Server Bussiness Intelligence Development Studio

Trang 15

(Hình 6 Thao tác tạo mới project)

e Tạo Data Source (DS) để chỉ ra kết nối tới CSDL bằng cách nhấp chuột phải lên DS và chọn New Data Source

(Hình 7 Thao tác tạo mới DS)

f Tạo Data Source Views (DSV) để chỉ ra dữ liệu thực sự đƣợc đƣa vào

mô hình khai phá bằng cách nhấp chuột phải lên DSV và chọn New DSV

Trang 16

(Hình 8 Thao tác tạo mới DSV)

g Tạo các mô hình khai phá dữ liệu bằng cách nhấp chuột phải lên

Mining Structures và chọn New Mining Structures

(Hình 9 Thao tác tạo mới Mining Structures)

Trang 17

PHẦN 4 SỬ DỤNG MÔ HÌNH KHAI PHÁ DỮ LIỆU MICROSOFT TIME SERIES ĐỂ DỰ ĐOÁN TÌNH HÌNH KINH DOANH CỦA CÔNG TY

LOCK&LOCK VIỆT NAM

4.1 Giới thiệu mô hình khai phá dữ liệu Microsoft Time Series

Một time series là một chuỗi dữ liệu được thống kê theo thời gian Giải thuật Time Series dựa trên cơ sở giải thuật truy hồi nhằm tối ưu hóa việc dự đoán các chuỗi giá trị liên tục như dữ liệu bán hàng sản phẩm Khác với các giải thuật khai thác dữ liệu khác như giải thuật cây quyết định, yêu cầu thêm một số thông tin đầu vào nhằm mục đích dự đoán các xu hướng kế tiếp của dữ liệu, đây là một vấn đề mà mô hình giải thuật trục thời gian không thực hiện được Một mô hình giải thuật theo trục thời gian có thể dự đoán các xu hướng của dữ liệu, tuy nhiên phải dựa trên tập dữ liệu gốc được dùng để xây dựng mô hình và ta hoàn toàn có thể thêm mới các cột dữ liệu đầu vào, tự động kết hợp với nguồn dữ liệu hiện tại một cách hoàn toàn tự động trong quá trình phân tích dự đoán thông tin

Một số đối số quan trọng trong mô hình khai phá Time Series

 MISSING VALUE SUBSTITUTION: là đối số quan trọng nhất, giải thuật báo lỗi khi chúng ta bỏ qua đối số này, nó có 3 giá trị

o Previous: khi dữ liệu dự đoán bị khuyết giá trị, trong trường hợp này mô hình sẽ tự động chọn giá trị của ngày liền trước nó

để điền vào

o Mean: giải thuật tự động lấy giá trị trung bình của các giá trị

để điền vào giá trị bị khuyết

o A number: dữ liệu bị khuyết sẽ nhận lấy giá trị do chúng ta cung cấp trong biến này

 PERIODICITY HINT: là một đối số quan trọng thứ 2, cho biết chu

kỳ dự đoán dữ liệu ví dụ chu kỳ có thể là 1 ngày, 1 tháng, 3 tháng hay

Ngày đăng: 04/07/2015, 03:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Data Mining with Microsoft SQL Server 2008 của Jamie MacLennan, ZhaoHui Tang, Bogdan Crivat (từ trang 127 đến trang 318, từ trang 498 đến trang 539).Tài liệu Tiếng Việt Sách, tạp chí
Tiêu đề: Data Mining with Microsoft SQL Server 2008
[2]. Giáo trình Chuyên đề Khai phá dữ liệu và Nhà kho dữ liệu (2004) – PGS.TS Đỗ Phúc - Đại học Quốc Gia Thành Phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Chuyên đề Khai phá dữ liệu và Nhà kho dữ liệu (2004)
[6]. Websites: http://doc.edu.vn/tai-lieu/khoa-luan-nghien-cuu-ky-thuat-khai-pha-du-lieu-va-ung-dung-trong-he-thong-ban-sach-truc-tuyen-6095/ Link
[8]. Websites: http://text.123doc.vn/text-doc/338118-cac-thuat-toan-khai-thac-du-lieu.htm Link
[9]. Websites: http://biatlink.wordpress.com/2013/04/29/sql-server-request-failed-or-the-service-did-not-respond-in-a-timely-fashion/ Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w